距離メトリックとしての相関の使用(階層クラスタリングの場合)


22

データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は d=1|r|

コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問(k-meansクラスタリングに関して)で読みました:d=2(1r)

階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか?


3
はい、可能性の1つは(そして幾何学的に正しい方法は)最後の式です。しかし、になるように、の符号を無視してもかまいません。ほとんどの場合、クラスタリング結果に影響を与えることなく、安全にドロップできます。距離は2乗ユークリッドとして扱うことができます。このスレッドには、距離変換相関測定メトリック距離であるか否かを検討しました。d 2 = 2 1 | r |2rd2=2(1|r|)2
ttnphns

2
また、あなたはしていない持って、常に変換するために、、このようなユークリッド距離のような線形非類似度に。rまたは|に直接基づいてクラスタリングを行う人は、めったにありませんr | 類似性のように、それは角度の類似性ですrr|r|
-ttnphns

回答:


21

階層クラスタリングの要件

階層的クラスタリングは、任意の類似性と非類似性の尺度で使用できます。(ほとんどのツールは非類似性を期待しますが、負の値を許可します-小さい値と大きい値のどちらを優先するかはユーザー次第です)。

重心または分散に基づく方法(ウォードの方法など)のみが特別であり、二乗ユークリッドで使用する必要があります。(理由を理解するには、これらのリンケージを注意深く調べてください。)

単一リンケージ、平均リンケージ、完全リンケージはそれほど影響を受けず、ペアワイズの非類似度の最小/平均/最大のままです。

距離測定としての相関

データ(n観測値、p特徴)を前処理して、各特徴がμ=0およびσ=1(定数の特徴を許可しない!)になるようにすると、相関は余弦になります。

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

同じ条件下で、ユークリッド距離の二乗も余弦になります。

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

したがって、データが縮退していない限り、階層クラスタリングに相関を使用しても問題ありません。上記で説明したように前処理してから、ユークリッド距離の平方を使用します。


1
Only ward's method is special, and should be used with squared Euclidean。病棟だけではありません。重心または重心からの偏差を計算する方法には、幾何学的な精度のために、ユークリッドまたは平方ユークリッド(実装に応じて)距離が必要です。そのようなものを失い、当然の警告があれば、それらは他のメトリック距離で使用できます。これらのメソッドは、重心、「中央値」、ワード、分散(ワードと混同しないでください!)、およびその他のメソッドです。
ttnphns

おかげで、私はそれをより明確にしました。私はこれらのバリエーションに気づかず、シングル/アベレージ/コンプリート/ワードのみを考えていました。
アノニムース

1
,dim
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.