大きな混同行列を読みやすくするにはどうすればよいですか?


9

私は最近、369クラスのデータセット(リンク)を公開しました。いくつかの実験を行って、分類作業がいかに難しいかを感じました。通常、発生しているエラーのタイプを確認するための混同行列がある場合、私はそれが好きです。ただし、マトリックスは実用的ではありません。369×369

大きな混乱行列の重要な情報を提供する方法はありますか?たとえば、通常、あまり興味のない0がたくさんあります。完全な混同行列の一部である複数の行列を表示できるようにするために、ほとんどの非ゼロエントリが対角線の周りになるようにクラスを並べ替えることはできますか?

これは大きな混同行列の例です

野生の例

EMNISTの図6は見栄えがします。

ここに画像の説明を入力してください

多くのケースがどこにあるかを簡単に確認できます。ただし、これらはクラスのみです。1列だけではなくページ全体を使用した場合、これはおそらく3倍になりますが、それでもクラスのみになります。HASYの369クラスやImageNetの1000クラスにも近くありません。26日26日=78

こちらもご覧ください

CS.stackexchangeに関する私の同様の質問


残念です;-)クラスごとに1つとすべての混同行列を試すことができます。それらが与えられた場合、動作が一般的でない外観またはクラスであり、それらに対してのみ完全な混同行列を使用します。
DaL 2017

1
各カテゴリのモデルの正確さを報告するだけではどうですか。マトリックス全体を本当に見る必要があるのは誰ですか?
Darrin Thomas

1
@DarrinThomas紙で報告するだけではありません。自分でエラーを分析することについてもです。
マーティン・トーマ2017

1
まず、値を行ごとに正規化してから、ヒートマップとしてプロットします。さらに、クラスごとの精度(対角線上の正規化された値)でクラスを並べ替えることもできます。これにより読みやすさが大幅に向上すると思います。
Nikolas Rieble 2017

1
私はおそらくこれをmath.SE / stackoverflowでもう一度尋ねる必要があります。ほとんどの値が対角線に近くなるように行/列を並べ替えるアルゴリズムがあると確信しています。
マーティン・トーマ2017

回答:


4

修士論文(48ページ以降)で説明し混乱行列の順序付け(CMO)と呼ばれる手法を適用できます。

  1. ほとんどのエラーが対角線上にあるような方法で列/行を並べ替えます。
  2. 単一のブロックを簡単に印刷/表示できるように、そしてデータポイントが少ないためにブロックの一部を削除できるように、混同行列を複数のブロックに分割します。

いい副作用:この方法でも、類似したクラスが自動的にクラスタ化されます。私の修士論文の図5.12はそれを示しています:

ここに画像の説明を入力してください

混同行列の順序付けを適用できます clana


実装についてはgithub.com/MartinThoma/clanaを参照してください
Martin Thoma

1

列と行を並べ替える代わりに、データを視覚化する他の方法を見つけることをお勧めします。

jj。また、最大20個のきめの細かい混同行列を持つことができます。各クラスターについて、各クラスターの最大20個のクラスについて、クラスの混同行列を表示できます。もちろん、階層的クラスタリングを使用してこれを拡張し、複数の粒度で混乱行列を作成することもできます。

他の可能な視覚化戦略もあるかもしれません。

一般的な哲学的ポイントとして:目標(視覚化から何を取得したいか)を明確にすることも役立つ場合があります。次の2種類の視覚化の用途を区別できます。

  • 探索的分析:何を探しているのかわからない。データの興味深いパターンやアーティファクトを探すのに役立つ視覚化が必要なだけです。

  • メッセージ付きの図:読者に取り上げてほしい特定のメッセージがあり、そのメッセージをサポートしたり、メッセージの証拠を提供したりするのに役立つ視覚化を考案したい場合。

それはあなたが何を目指しているのかを知るのに役立ち、それを目指した視覚化を考案するかもしれません:

  • 探索的分析を行っている場合は、完璧な視覚化を1つ選択するのではなく、考えられる限り多くの視覚化を作成してみると役立つことがよくあります。それらのいずれかが完璧であるかどうか心配しないでください。それぞれにデータの見方が異なる可能性があるため、それぞれに欠陥があっても問題ありません(おそらく、いくつかの点で優れており、他の点では悪いでしょう)。

  • 伝えようとしている特定のメッセージや開発しようとしているテーマがある場合は、そのテーマをサポートする視覚化を探します。そのテーマ/メッセージが何であるかを知らずに特定の提案をすることは困難です。


0

EMNIST混同行列がよく見える理由を知ることは重要です。

しかし、私は彼らが着色を維持しておらず、数字が大きいほど暗くなっているのを奇妙に思います。たとえば、ゼロを含む空のミス分類のほとんどは、整数を含むものより暗い灰色です。一貫していないようです。

EMINSTスタイルを使用してみます。ただし、色がセル内のエントリ数を示す場合は、一貫性を保ちます。ゼロの場合は白、ほとんどのエントリの場合は黒。

完全な分類は、完全に白い上三角形と下三角形を持つ黒い対角線になります。三角形に灰色のパッチがある場所は問題を示します。1000クラスのセットでもこれは役に立ちます。クラスが階層的であるImageNetの場合、サブクラスが親クラスの右側にグループ化されるように列を並べ替えると、四角い暗いパッチが発生します。

また、画像の上位5つの応答を取得している場合、クラスは相互に排他的ではない可能性があるため、lap_dogの画像の犬の分類は依然としてtrueである必要があるため、このような混同行列では、より一般的なクラスははるかに暗いはずです正確な分類よりも(色が正規化されている場合)。したがって、左上の正方形が最も暗くなります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.