調整されたランドインデックスと調整された相互情報量


9

クラスタリングのパフォーマンスを評価しようとしています。メトリックに関するスキスチ学習ドキュメントを読んでいました。ARIとAMIの違いがわかりません。彼らは2つの異なる方法で同じことをしているように私には思えます。

ドキュメントからの引用:

グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、調整されたRandインデックスは、順列を無視し、偶然に正規化して、2つの割り当ての類似性測定する関数です。

グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、相互情報は、順列を無視して2つの割り当ての一致測定する関数です... AMIはより最近提案され、正規化されています。機会。

クラスタリング評価で両方を使用する必要がありますか、それとも冗長ですか?


ランド氏はランダムではありません。
QUITあり--Anony-Mousse 2017年

回答:


2

それらは、すべてがクラスタリングを比較しようとするダースのうち2つです。

しかし、それらは同等ではありません。彼らは異なる理論を使用しています。

時々、ARIは1つの結果を優先し、AMIは別の結果を優先する場合があります。しかし、彼らはしばしば(数ではなく)好みに同意します。


あなたはどういう意味ですか:「彼らは(数字ではなく)優先的に同意しますか?」
al27091

複数の結果を比較するとき。
QUITあり-Anony-Mousse 2017年

9

経験則は次のとおりです。

  • グラウンドトゥルースクラスタリングに同じサイズの大きなクラスターがある場合は、ARIを使用します。
  • 宇佐AMIグランドトゥルースクラスタリングがあるときにアンバランスと小さなクラスターが存在します

私はこのトピックに取り組みました。参照:チャンスクラスタリング比較メジャーの調整


一部のデータセットにHDBSCANとKMeansを適用し、KMeansには適切な数のクラスターを、HDBSCANには正しい最小クラスターサイズを使用しました。私の問題は、AMIの進行がARIの進行と相関しないことです。AMIで平均0.3と0.35が得られます。ARIの結果は0に近くなります。それぞれ0.07と0.01の平均です。HDBSCANでより良いAMIを取得した場合でも、ARIスコアは0に非常に近くなりました。つまり、AMIが高い場合でも、HDBSCANはKMeansよりもARIが低くなります。
ryuzakinho

AMIの0.3と0.35が対応することを意味するクラスタリング結果のタイプは何ですか?
Simone

1
pastebin.com/raw/WHvTxbLm これは、私が理解していないケースの1つです。AMIの改善はARIの改善を意味するわけではなく、その逆も同様です。私がどちらか一方の相対的な改善を信頼する理由はありますか?結果を改善するためにどのメトリックを見ればよいのかわかりません(リンクした論文から、クラス分布を考えるとAMIであるはずですが、それでも混乱しています)。
ryuzakinho

1
あなたの場合、HDBSCANの結果は非常に大きなクラスターと多くの小さなクラスターを示していますが、これは本質的に不均衡なソリューションです。したがって、AMIはDBSCANで大きくなります。あなたのグラウンドトゥルースは、そのソリューションよりもバランスが取れています。したがって、ここではARIを使用してソリューションを選択します。これは、あなたが得たクラスタリングソリューションはそれほど良くないようだと言いました。多分それはあなたが多くのクラスターを持っているからでしょう。必要なクラスターの数を減らすことはできますか?または、純粋に距離ベースのクラスタリングを使用するのではなく、考慮する機能がありますか?
Simone、

1
より定性的なテストを行った結果、私のユースケースではAMIの方が信頼性が高いことがわかりました。確かに、AMIはHDBSCANの方が優れていると言っていました。大きなノイズクラスターが1つありましたが、他のクラスターはKMEANSクラスターよりも純粋でした。
ryuzakinho
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.