樹状図クラスタリングのコフェネティック相関について


10

樹状図クラスタリングのコンテキストを検討してください。元の非類似性を個人間の距離と呼びましょう。樹状図を作成した後、2人の個人間のコフェネティック非類似性を、これらの個人が属するクラスター間の距離として定義します。

一部の人々は、元の非類似性とコフェン的非類似性の間の相関(コフェン的相関と呼ばれる)は分類の「適合性指標」であると考えています。これは私にはまったく不可解に聞こえます。私の異論は、ピアソン相関の特定の選択に依存していませんが、元の非類似性とコフェン的非類似性の間のリンクは分類の適合性に関連している可能性があるという一般的な考えに依存しています。

私に同意しますか、それとも樹状図分類の適合性指標としてのコフェン的相関の使用を支持する議論を提示できますか?


(非常に直感的な)に対する異論は説明しませんgeneral idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification。分類は元の非類似性を反映する必要があります。これを行う樹状図分類の基本的な特徴は、コフェネティック非類似性によるものです。汚点はありますか?違う?
ttnphns 2012

1
ちなみに、階層型(凝集)クラスタリングの概念と階層型(樹形図)分類混同しないでください。クラスタリングは、その樹状図をプロセスレポートとして生成します。階層的な分類結果であるとは主張していません。
ttnphns 2012

1
コフェネティック相関は「独断的な」分類に対してのみ提案されました- (コフェネティック)相関の有用性の概念はすぐに従うため、分類ペアワイズの非類似性を反映する必要があります。
ttnphns 2012

2
コフェン的相関に関するこのペーパーを読みたいかもしれません
ttnphns '26 / 07/26

3
@StéphaneLaurent私はあなたの質問への答えとして貢献することは何もありませんが、ダイアログを読んでいます。あなたが言ったことは私に不快に聞こえませんでした。また、分類とクラスタリングの違いがわからないと言っていましたが、簡単な質問が答えられるのを見たことがありません。これは、機械学習の人々が教師あり学習と呼ぶ教師付き学習の違いです。分類では、データのすべてのクラスラベルを知っており、その情報を使用して、ラベルのない将来のケースの分類ルールを構築します。クラスターでは、ラベル付けはありません。
Michael R. Chernick

回答:


2

...は分類の「適合性指標」です

私にとって、それが何を意味するのか明確ではありません。私がそれを得た方法は、それです

元の非類似度とコフェン的非類似度の間の相関(コフェン的相関と呼ばれる)

は、観測間の階層構造、つまり距離の尺度です。つまり、別のクラスターの観測値との相違点は、類似していることが好ましいと言えます。ユークリッド距離と完全なリンケージを使用してクラスタ化されたデータセットAとBを検討すると... ここに画像の説明を入力してください ...表現型距離マップを調べたり、表現型相関を計算したりしなくても、Aの表現型相関はBのそれよりも高いことがわかります。階層にはレベルがあります。したがって、CCは、同じレベル(クラスター)の観測値までの距離が類似しているかどうかを通知します。

完全を期すために、コフェネティック相関はCC(A)= 0.936およびCC(B)= 0.691です。


1
私はこれについてもっと専門家になってほしいです。ヒートマップを使用した例にはあまり従いません。CC(A)> CC(B)が明確になるのは何ですか。たとえば、上三角形がコフェネティック距離であり、下三角形が元の距離であり、両方が同様のパターンを表示した場合、CCが高くなるなどと認識します。W/これらはどのように推論するかわかりません。Aが当然より良いクラスタリングを生み出すだけなのでしょうか?その結果、結果のCCはうまく一致するようになるだけでしょうか?
ガン-モニカの
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.