クラスタリングの比較:ランドインデックスと情報のバリエーション


21

クラスタリングを比較するための情報バリエーションランドインデックスの違いの背後にある洞察や直感を誰かが持っているのではないかと思っていました。

マリーナメリアの論文「Comparing Clusterings-An Information Based Distance」(2007年、多変量解析ジャーナル)を読んだことがありますが、定義の違いに気付く以外に、情報のばらつきが何であるかがわかりませんrandインデックスがキャプチャしないことをキャプチャします。

回答:


8

2つの方法の違いは微妙です。それについて考える最良の方法は、クラスタリングのマージ分割操作によって定義されるラティスを考慮することです。これらの測定値は両方とも、クラスタリングで関数を定義し、次の式で2つのクラスタリング間の距離を定義することで再構築できます。f

C Cが'であるが、格子内の2つのクラスタリングの結合します。

dCC=fC+fC2fCC
CC

C={C1C2Ck}n=|C|fC=n2fC=nログn


ありがとう、Suresh!これらの式の違いが、ランドインデックスと情報の変化がクラスタリング間の一貫性(クラスタリングの1つが他のサブクラスタリングである)に異なる理由を説明するかどうか(およびその方法)を知っていますか?(micansの回答による)
アメリオバスケスレイナ

2
マイカンが指摘するように、ランドインデックスには2次の挙動があるので、線形に近いエントロピー関数よりも封じ込めの変化に敏感です。
スレシュVenkatasubramanian

申し訳ありませんが、クラスタリングが他のタイプの不一致と比較して、包含が2次項にどのように影響するかはまだわかりません。これについてもう少し詳しく説明していただけますか?
アメリオバスケスレイナ

@ user023472こんにちはuser023472。あなたの発見に興味があります。あなたはこの質問を少し前に聞いたようです。2つの方法の違いが実際にどのようなものかを学びましたか?ありがとう。
クレアトロン14年

14

私の意見では、大きな違いがあります。ランドインデックスは、それが動作するクラスタリングの粒度によって大きく影響を受けます。以下では、Mirkin距離を使用します。これは、調整されたRandインデックスの形式です(見やすいが、たとえばMeilaを参照)。また、Meilaの論文のいくつかで言及されている分割/結合距離も使用します(免責事項:分割/結合距離は私によって提案されました)。100個の要素の宇宙があるとします。Topを使用してすべての要素を含む単一クラスターでのクラスタリングを示し、Bottomを使用してすべてのノードが個別のシングルトンセットにあるクラスタリングを示し、Leftを使用してクラスタリング{{1,2、.. 10}、{11、 12..20}、{21,22..30}、...、{91,92、.. 100}}、およびクラスタリングを示す権利{{1,11、.. 91}、{2、 12、.. 92}、{3,13、.. 93}、...、{10,20、.. 100}}

私の考えでは、BottomとTopは一貫した(ネスト)クラスターであり、LeftとRightは最大限に競合するクラスターです。これらの2つのペアワイズ比較の上記のメトリックからの距離は次のとおりです。

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

その結果、Mirkin / Randは、一貫性のある上下のペアを、最大限に競合する左右のペアよりもはるかに遠く離れたものと見なします。これはポイントを説明する極端な例ですが、Mirkin / Randは一般に、それが動作するクラスタリングの粒度によって非常に大きな影響を受けます。これの根底にある理由は、このメトリックとクラスターサイズの2次関係であり、ノードのペアのカウントが関係しているという事実によって説明されています。実際には、Mirkin距離は、クラスタリングによって誘導される完全なグラフの結合のエッジセット間のハミング距離です(これは、あなたの質問に対する答えです)。

情報のバリエーションと分割/結合の違いについては、Meilaが示すように、最初の方が特定の競合状況により敏感です。つまり、Split / Joinは各クラスターの最適な一致のみを考慮し、そのクラスターの残りの部分で発生する可能性のある断片化を無視しますが、情報のバリエーションはこれを検出します。ただし、Split / Joinは、1つのクラスターを他のクラスターから取得するために移動する必要があるノードの数として簡単に解釈でき、その意味でその範囲はより簡単に理解できます。実際には、断片化の問題もそれほど一般的ではない場合があります。

これらの各メトリックは、2つの距離の合計、つまり、2つのクラスタリングのそれぞれから最大共通サブクラスタリングまでの距離として形成できます。私は、単にそれらの合計ではなく、それらの別々の部分で作業することがしばしば有益だと感じています。上記の表は次のようになります。

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

上部と下部の包摂関係がすぐに明らかになります。2つのクラスタリングが一貫しているかどうか(つまり、1つが(ほぼ)もう1つのサブクラスタリングであるかどうか)を知ることは、それらが近いかどうかの問題を緩和するために非常に役立ちます。クラスタリングは、ゴールドスタンダードからかなり離れている場合がありますが、それでも一貫性があるか、ほぼ一貫しています。そのような場合、そのゴールドスタンダードに関してクラスタリングが悪いと考える理由はないかもしれません。もちろん、単純なクラスタリングのTopとBottomは、あらゆるクラスタリングと一致するため、これを考慮する必要があります。

最後に、Mirkin、Variation of Information、Split / Joinなどのメトリックは、クラスタリングを比較するための自然なツールだと思います。ほとんどのアプリケーションでは、統計的独立性を組み込み、偶然を修正しようとする方法は、明確にするのではなく、過度に不自然で難解です。

2番目の例 次のクラスタリングのペアを考えます。C1= {{ 1、2、3、4、5、6、7、8 }、{9、10、11、12、13、14、15、16}} with C2 = {{1、2、3、4、5、6、7、8、9、10}、{11、12、13、14、15、16}}

そして C3 = {{1、2、3、4}、{5、6、7、8、9、10}、{11、12、13、14、15、16}}と{{1、2、3 、4}、{5、6、7、8、9、10、11、12}、{13、14、15、16}}

ここでC2は、から形成されてもよいC1ノード9および10を移動させることによって、およびC3をから形成することができるC3関与するクラスタの大きさが異なることを除いて(「2つのノードが移動」)両方の変更が同一であるノード11および12を移動させることによって。これら2つの例のクラスタリングメトリックステーブルは次のとおりです。

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Mirkin / RandおよびVariation of informationはクラスターサイズの影響を受けます(そして、Mirkinはより大きな範囲で、クラスターサイズの発散としてより顕著になります)が、Split / Joinの距離はそうではありません(その値は4です)常に最大の共通サブクラスタリングを介して1つのクラスタリングから別のクラスタリングにノードを「移動」するため)。これは、状況によっては望ましい特性です。Split / Join(移動するノードの数)の単純な解釈とクラスターサイズの独立性は、知っておく価値があります。マーキンと情報のバリエーションの間では、後者が非常に望ましいと思います。


マイクのおかげで、これは非常に洞察力に富んでいます。2番目の表を理解したかどうかはわかりません。テーブルの各エントリにカンマで区切られた2つの数字があるのはなぜですか?また、この引数が@Sureshにどのように関連しているか知っていますか?
アメリオバスケスレイナ

1
AとBがクラスタリングの場合、d(A、B)はd(A、B)= d(A、X)+ d(B、X)として分割できます。ここで、Xは次のサブクラスタリングである最大クラスタリングです。両方。Sureshの表記では、d(A、B)= f(A)+ f(B)-2f(X)があります。これは、f(A)+ f(X)-2f(X)+ f(B)+ f(X)-2f(X)= d(A、X)+ d(B、X)のように書き換えることができます。上記では、コンマで区切られた2つのコンポーネントd(A、X)およびd(B、X)を記述しました。この2つの最大の違いは、Mirkin / Randの2次特性です。上/下および左/右の例を見ると、上/下の距離は非常に大きくなっています。これは完全にTopのサイズによるものです。
マイカン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.