クラスタリングを比較するための情報のバリエーションとランドインデックスの違いの背後にある洞察や直感を誰かが持っているのではないかと思っていました。
マリーナメリアの論文「Comparing Clusterings-An Information Based Distance」(2007年、多変量解析ジャーナル)を読んだことがありますが、定義の違いに気付く以外に、情報のばらつきが何であるかがわかりませんrandインデックスがキャプチャしないことをキャプチャします。
クラスタリングを比較するための情報のバリエーションとランドインデックスの違いの背後にある洞察や直感を誰かが持っているのではないかと思っていました。
マリーナメリアの論文「Comparing Clusterings-An Information Based Distance」(2007年、多変量解析ジャーナル)を読んだことがありますが、定義の違いに気付く以外に、情報のばらつきが何であるかがわかりませんrandインデックスがキャプチャしないことをキャプチャします。
回答:
2つの方法の違いは微妙です。それについて考える最良の方法は、クラスタリングのマージ分割操作によって定義されるラティスを考慮することです。これらの測定値は両方とも、クラスタリングで関数を定義し、次の式で2つのクラスタリング間の距離を定義することで再構築できます。
C ∧ Cが'であるが、格子内の2つのクラスタリングの結合します。
私の意見では、大きな違いがあります。ランドインデックスは、それが動作するクラスタリングの粒度によって大きく影響を受けます。以下では、Mirkin距離を使用します。これは、調整されたRandインデックスの形式です(見やすいが、たとえばMeilaを参照)。また、Meilaの論文のいくつかで言及されている分割/結合距離も使用します(免責事項:分割/結合距離は私によって提案されました)。100個の要素の宇宙があるとします。Topを使用してすべての要素を含む単一クラスターでのクラスタリングを示し、Bottomを使用してすべてのノードが個別のシングルトンセットにあるクラスタリングを示し、Leftを使用してクラスタリング{{1,2、.. 10}、{11、 12..20}、{21,22..30}、...、{91,92、.. 100}}、およびクラスタリングを示す権利{{1,11、.. 91}、{2、 12、.. 92}、{3,13、.. 93}、...、{10,20、.. 100}}。
私の考えでは、BottomとTopは一貫した(ネスト)クラスターであり、LeftとRightは最大限に競合するクラスターです。これらの2つのペアワイズ比較の上記のメトリックからの距離は次のとおりです。
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
その結果、Mirkin / Randは、一貫性のある上下のペアを、最大限に競合する左右のペアよりもはるかに遠く離れたものと見なします。これはポイントを説明する極端な例ですが、Mirkin / Randは一般に、それが動作するクラスタリングの粒度によって非常に大きな影響を受けます。これの根底にある理由は、このメトリックとクラスターサイズの2次関係であり、ノードのペアのカウントが関係しているという事実によって説明されています。実際には、Mirkin距離は、クラスタリングによって誘導される完全なグラフの結合のエッジセット間のハミング距離です(これは、あなたの質問に対する答えです)。
情報のバリエーションと分割/結合の違いについては、Meilaが示すように、最初の方が特定の競合状況により敏感です。つまり、Split / Joinは各クラスターの最適な一致のみを考慮し、そのクラスターの残りの部分で発生する可能性のある断片化を無視しますが、情報のバリエーションはこれを検出します。ただし、Split / Joinは、1つのクラスターを他のクラスターから取得するために移動する必要があるノードの数として簡単に解釈でき、その意味でその範囲はより簡単に理解できます。実際には、断片化の問題もそれほど一般的ではない場合があります。
これらの各メトリックは、2つの距離の合計、つまり、2つのクラスタリングのそれぞれから最大共通サブクラスタリングまでの距離として形成できます。私は、単にそれらの合計ではなく、それらの別々の部分で作業することがしばしば有益だと感じています。上記の表は次のようになります。
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
上部と下部の包摂関係がすぐに明らかになります。2つのクラスタリングが一貫しているかどうか(つまり、1つが(ほぼ)もう1つのサブクラスタリングであるかどうか)を知ることは、それらが近いかどうかの問題を緩和するために非常に役立ちます。クラスタリングは、ゴールドスタンダードからかなり離れている場合がありますが、それでも一貫性があるか、ほぼ一貫しています。そのような場合、そのゴールドスタンダードに関してクラスタリングが悪いと考える理由はないかもしれません。もちろん、単純なクラスタリングのTopとBottomは、あらゆるクラスタリングと一致するため、これを考慮する必要があります。
最後に、Mirkin、Variation of Information、Split / Joinなどのメトリックは、クラスタリングを比較するための自然なツールだと思います。ほとんどのアプリケーションでは、統計的独立性を組み込み、偶然を修正しようとする方法は、明確にするのではなく、過度に不自然で難解です。
2番目の例 次のクラスタリングのペアを考えます。C1= {{ 1、2、3、4、5、6、7、8 }、{9、10、11、12、13、14、15、16}} with C2 = {{1、2、3、4、5、6、7、8、9、10}、{11、12、13、14、15、16}}
そして C3 = {{1、2、3、4}、{5、6、7、8、9、10}、{11、12、13、14、15、16}}と{{1、2、3 、4}、{5、6、7、8、9、10、11、12}、{13、14、15、16}}
ここでC2は、から形成されてもよいC1ノード9および10を移動させることによって、およびC3をから形成することができるC3関与するクラスタの大きさが異なることを除いて(「2つのノードが移動」)両方の変更が同一であるノード11および12を移動させることによって。これら2つの例のクラスタリングメトリックステーブルは次のとおりです。
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
Mirkin / RandおよびVariation of informationはクラスターサイズの影響を受けます(そして、Mirkinはより大きな範囲で、クラスターサイズの発散としてより顕著になります)が、Split / Joinの距離はそうではありません(その値は4です)常に最大の共通サブクラスタリングを介して1つのクラスタリングから別のクラスタリングにノードを「移動」するため)。これは、状況によっては望ましい特性です。Split / Join(移動するノードの数)の単純な解釈とクラスターサイズの独立性は、知っておく価値があります。マーキンと情報のバリエーションの間では、後者が非常に望ましいと思います。