回答:
これに対する標準的な答えはわかりませんが、数回前に考えました。共有するいくつかのアイデアがあります。
混同行列が1つある場合、分類モデルがクラスを混同(誤分類)する方法の概要がわかります。分類テストを繰り返すと、最終的に複数の混同行列ができます。問題は、意味のある集計混同行列を取得する方法です。答えは、意味のある(しゃれた意図の)意味が何であるかに依存します。意味のある単一のバージョンはないと思います。
1つの方法は、複数のテストの大まかなアイデアに従うことです。一般に、より正確な結果を得るために、何かを複数回テストします。一般的な原則として、複数のテストの結果を平均化すると、推定値の分散が減少するため、結果として推定値の精度が向上すると考えられます。もちろん、この方法で、位置ごとに位置を合計し、テストの数で割ることもできます。さらに進んで、混同行列の各セルの値のみを推定する代わりに、信頼区間、t値などを計算することもできます。これは私の観点からは大丈夫です。しかし、それは物語の片側だけを語ります。
調査されるかもしれない物語の反対側は、同じインスタンスの結果がどれほど安定しているかです。私が極端な例をとることを例示するために。3つのクラスの分類モデルがあるとします。これらのクラスが同じ比率であると仮定します。モデルが1つのクラスを完全に予測し、他の2つのクラスをランダムのようなパフォーマンスで予測できる場合、0.33 + 0.166 + 0.166 = 0.66の誤分類率になります。これは良いように思えるかもしれませんが、単一の混同行列を調べても、最後の2つのクラスでのパフォーマンスが大きく異なることはわかりません。複数のテストが役立ちます。しかし、混乱行列を平均化すると、これが明らかになるでしょうか?私の信念はそうではありません。平均化により、ほぼ同じ結果が得られ、複数のテストを実行しても、推定の分散が減少するだけです。
そのため、混同行列を構成する別の方法には、各インスタンスの予測密度を含める方がよいでしょう。この密度は、インスタンスごとに、特定のクラスが予測された回数をカウントすることで構築できます。正規化後、インスタンスごとに1つの予測ラベルではなく予測密度が得られます。単一の予測ラベルが縮退密度と似ていることがわかります。この場合、個別のインスタンスごとに、予測クラスが1、その他のクラスが0の確率があります。この密度で、各インスタンスと予測されたクラスからの確率を、集計された混同行列の対応するセルに追加することにより、混同行列を作成できます。
これにより、前の方法と同様の結果が得られると主張できます。ただし、これは、モデルの分散が小さい場合によくあるケースだと思います。2番目の方法は、テストのサンプルの描画方法による影響が少ないため、より安定しており、現実に近くなります。
また、2番目の方法を変更して3番目の方法を取得することもできます。この場合、所定のインスタンスの予測から最も密度の高いラベルを予測として割り当てることができます。
私はそれらを実装していませんが、時間を費やす価値があると思うので、さらに勉強する予定です。
「マスター混同マトリックス」を実現するには、いくつかの方法があります。
すべての混同行列を合計します。提案したように、これを合計すると混同行列になります。この問題は、合計を解釈できないことです。
エントリを平均化します。この方法は第1と同じですが、各エントリを試行回数(この場合は〜400)で割ります。これは、各カテゴリを(平均)+-(エラー測定)に実際に変換して、どのカテゴリが最も揮発性または安定しているかを実際に確認できるため、私の推奨される方法です。ただし、この「エラー測定」の解釈には注意してください。
混同数の問題固有の測定値を報告します。たとえば、数値に外れ値がある場合、中央値は平均よりも優先されます。
レポートできる他の統計もあります。メソッドをやり直して、個々の分類を追跡できます。次に、「同じままで正確な分類の割合」など、他の重要な統計を言うことができます...