n個の異なる分類から集約混同行列を取得する方法


8

方法論の精度をテストしたい。私はそれを約400回実行し、実行ごとに異なる分類を得ました。また、グラウンドトゥルース、つまり、テストする実際の分類もあります。

分類ごとに混同行列を計算しました。次に、全体的な混同行列を取得するために、これらの結果を集計します。どうすればそれを達成できますか?

全体の混同行列を取得するために、すべての混同行列を合計できますか?

回答:


4

これに対する標準的な答えはわかりませんが、数回前に考えました。共有するいくつかのアイデアがあります。

混同行列が1つある場合、分類モデルがクラスを混同(誤分類)する方法の概要がわかります。分類テストを繰り返すと、最終的に複数の混同行列ができます。問題は、意味のある集計混同行列を取得する方法です。答えは、意味のある(しゃれた意図の)意味が何であるかに依存します。意味のある単一のバージョンはないと思います。

1つの方法は、複数のテストの大まかなアイデアに従うことです。一般に、より正確な結果を得るために、何かを複数回テストします。一般的な原則として、複数のテストの結果を平均化すると、推定値の分散が減少するため、結果として推定値の精度が向上すると考えられます。もちろん、この方法で、位置ごとに位置を合計し、テストの数で割ることもできます。さらに進んで、混同行列の各セルの値のみを推定する代わりに、信頼区間、t値などを計算することもできます。これは私の観点からは大丈夫です。しかし、それは物語の片側だけを語ります。

調査されるかもしれない物語の反対側は、同じインスタンスの結果がどれほど安定しているかです。私が極端な例をとることを例示するために。3つのクラスの分類モデルがあるとします。これらのクラスが同じ比率であると仮定します。モデルが1つのクラスを完全に予測し、他の2つのクラスをランダムのようなパフォーマンスで予測できる場合、0.33 + 0.166 + 0.166 = 0.66の誤分類率になります。これは良いように思えるかもしれませんが、単一の混同行列を調べても、最後の2つのクラスでのパフォーマンスが大きく異なることはわかりません。複数のテストが役立ちます。しかし、混乱行列を平均化すると、これが明らかになるでしょうか?私の信念はそうではありません。平均化により、ほぼ同じ結果が得られ、複数のテストを実行しても、推定の分散が減少するだけです。

そのため、混同行列を構成する別の方法には、各インスタンスの予測密度を含める方がよいでしょう。この密度は、インスタンスごとに、特定のクラスが予測された回数をカウントすることで構築できます。正規化後、インスタンスごとに1つの予測ラベルではなく予測密度が得られます。単一の予測ラベルが縮退密度と似ていることがわかります。この場合、個別のインスタンスごとに、予測クラスが1、その他のクラスが0の確率があります。この密度で、各インスタンスと予測されたクラスからの確率を、集計された混同行列の対応するセルに追加することにより、混同行列を作成できます。

これにより、前の方法と同様の結果が得られると主張できます。ただし、これは、モデルの分散が小さい場合によくあるケースだと思います。2番目の方法は、テストのサンプルの描画方法による影響が少ないため、より安定しており、現実に近くなります。

また、2番目の方法を変更して3番目の方法を取得することもできます。この場合、所定のインスタンスの予測から最も密度の高いラベルを予測として割り当てることができます。

私はそれらを実装していませんが、時間を費やす価値があると思うので、さらに勉強する予定です。


第4段落の誤分類率とはどういう意味ですか?
gc5 2014年

誤分類率=(正しく分類されたインスタンスの数)/(インスタンスの総数); その段落には、0.33 =各クラスの割合があります(ラベルをc1、c2、c3としましょう)。0.33 * 1.0(c1はすべて正しく分類されます)、+ 0.33 * 0.5(c2はc2またはc3としてランダムに分類されます)+ 0.33 * 0.5(c3はc2またはc3としてランダムに分類されます)= 0.33 + 0.166 + 0.166 = 0.66(インスタンスは正しく分類されています/インスタンスの合計数)
rapaio 2014年

4

「マスター混同マトリックス」を実現するには、いくつかの方法があります。

  1. すべての混同行列を合計します。提案したように、これを合計すると混同行列になります。この問題は、合計を解釈できないことです。

  2. エントリを平均化します。この方法は第1と同じですが、各エントリを試行回数(この場合は〜400)で割ります。これは、各カテゴリを(平均)+-(エラー測定)に実際に変換して、どのカテゴリが最も揮発性または安定しているかを実際に確認できるため、私の推奨される方法です。ただし、この「エラー測定」の解釈には注意してください。

  3. 混同数の問題固有の測定値を報告します。たとえば、数値に外れ値がある場合、中央値は平均よりも優先されます。

レポートできる他の統計もあります。メソッドをやり直して、個々の分類を追跡できます。次に、「同じままで正確な分類の割合」など、他の重要な統計を言うことができます...


1
あなたが結果を合計するとき、あなたが合計を解釈することができないと言うとき、あなたは各分類が異なる重みを持つことができて、その貢献が合計で過大/過小に見積もられることができることを意味しますか?たとえば、4つの独立したテストを実行するとしたら、各分類の重みは同じで、合計を(痛みなく)解釈すると思いますか?それが明確であることを願って..
gc5

1
私が伝えようとしていたことは、実際の数値が何を意味するのかがわからなくなるということです。たとえば、実行1の特定のエントリに4があり、実行2の同じエントリに5がある場合、4 + 5 = 9が何を意味するか正確に言うのは困難です。私はむしろ、個人がマトリックス全体に分類される分布(%)または平均を確認します。それははるかに直感的です。
nfmcclure 2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.