クラスター検証の情報のバリエーション（VI）メトリックの背後にある直感は何ですか？

私のような非統計学者にとっては、VIMarina Meliaの関連する論文「クラスタリングの比較-情報に基づく距離」（Journal of Multivariate Analysis、2007）を読んだ後でも、メトリック（情報の変動）のアイデアを捉えることは非常に困難です。実際、私はそこにあるクラスタリングの用語の多くに精通していません。

以下はMWEです。使用されるさまざまなメトリックで出力が何を意味するか知りたいのですが。私はこれらの2つのクラスターをR内に同じIDの順序で持っています：

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

現在VI、他のメトリクス/インデックスに基づいて、文献でのそれらの出現順に時系列で比較を行っています。

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

ご覧のとおりVI、他のすべての値とは異なりました。

この値は何を示していますか（そして、それは下の図とどのように関連していますか？）
この値を低いまたは高いと見なすためのガイドラインは何ですか？
ガイドラインは定義されていますか？

たぶん、そのような結果を報告しようとするとき、分野の専門家は私のような素人にいくつかの賢明な説明を提供することができます。誰かが他のメトリックのガイドラインも提供してくれると本当にありがたいです（値が大きいか小さいか、つまり2つのクラスター間の類似性に関して）。

私はこことここで関連するCVスレッドを読みましたが、それでも背後の直感を理解できませんでしたVI。誰かが簡単な英語でこれを説明できますか？

下の図は、上記の論文に関する図2 VIです。

ここに画像の説明を入力してください

r clustering validation intuition

— 博士
ソース

これらすべての類似性とメトリック（2つのタイプの違いに注意）は、何らかの方法で、2つのパーティション間の最大の共通サブクラスタリングに関連する断片化の量を測定します。それらはすべて混同行列として知られているものを使用します。VIの正確な式を検討することで、その断片化を測定していると理解できます。Meilaの出版物の1つにある公式を確認することをお勧めします。また、これらの距離はすべてスケールが異なるため、これらすべての距離の正規化バージョンについて読むことをお勧めします。これが最も重要なポイントかもしれません。

— micans 2013年

私もVIの解釈に苦労しており、この記事が非常に役立つことがわかりました！

— Pizza

対策には異なる解釈がある可能性があることを理解する必要があります。

あなたのプロットから判断すると、低い VIが良いです。

1 - 0.2451685 = 0.7548315

これは他の措置とはるかに一致しています。

ただし、これらの指標のほとんどは異なるものを測定することに注意してください。

1つのメジャーが0.8であるからといって、別のメジャーも0.8であると仮定する理由はありません。

— QUITあり-匿名ムース
ソース

それぞれが何を測定しているのかを説明できれば、OPはそれを評価してくれると思います。

— gung-モニカの復活

それぞれを説明するのに十分なほどよくわかりません。これに匹敵するスケール/単位がないことは明らかです。ボルトとフィートが同じように比較することはできません。

— QUITあり-Anony-Mousse 2014年