私のような非統計学者にとっては、VI
Marina Meliaの関連する論文「クラスタリングの比較-情報に基づく距離」(Journal of Multivariate Analysis、2007)を読んだ後でも、メトリック(情報の変動)のアイデアを捉えることは非常に困難です。実際、私はそこにあるクラスタリングの用語の多くに精通していません。
以下はMWEです。使用されるさまざまなメトリックで出力が何を意味するか知りたいのですが。私はこれらの2つのクラスターをR内に同じIDの順序で持っています:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
現在VI
、他のメトリクス/インデックスに基づいて、文献でのそれらの出現順に時系列で比較を行っています。
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
ご覧のとおりVI
、他のすべての値とは異なりました。
- この値は何を示していますか(そして、それは下の図とどのように関連していますか?)
- この値を低いまたは高いと見なすためのガイドラインは何ですか?
- ガイドラインは定義されていますか?
たぶん、そのような結果を報告しようとするとき、分野の専門家は私のような素人にいくつかの賢明な説明を提供することができます。誰かが他のメトリックのガイドラインも提供してくれると本当にありがたいです(値が大きいか小さいか、つまり2つのクラスター間の類似性に関して)。
私はこことここで関連するCVスレッドを読みましたが、それでも背後の直感を理解できませんでしたVI
。誰かが簡単な英語でこれを説明できますか?
下の図は、上記の論文に関する図2 VI
です。
2
これらすべての類似性とメトリック(2つのタイプの違いに注意)は、何らかの方法で、2つのパーティション間の最大の共通サブクラスタリングに関連する断片化の量を測定します。それらはすべて混同行列として知られているものを使用します。VIの正確な式を検討することで、その断片化を測定していると理解できます。Meilaの出版物の1つにある公式を確認することをお勧めします。また、これらの距離はすべてスケールが異なるため、これらすべての距離の正規化バージョンについて読むことをお勧めします。これが最も重要なポイントかもしれません。
—
micans 2013年