データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は
コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問(k-meansクラスタリングに関して)で読みました:
階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか?
データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は
コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問(k-meansクラスタリングに関して)で読みました:
階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか?
回答:
階層的クラスタリングは、任意の類似性と非類似性の尺度で使用できます。(ほとんどのツールは非類似性を期待しますが、負の値を許可します-小さい値と大きい値のどちらを優先するかはユーザー次第です)。
重心または分散に基づく方法(ウォードの方法など)のみが特別であり、二乗ユークリッドで使用する必要があります。(理由を理解するには、これらのリンケージを注意深く調べてください。)
単一リンケージ、平均リンケージ、完全リンケージはそれほど影響を受けず、ペアワイズの非類似度の最小/平均/最大のままです。
データ(観測値、特徴)を前処理して、各特徴がおよび(定数の特徴を許可しない!)になるようにすると、相関は余弦になります。
同じ条件下で、ユークリッド距離の二乗も余弦になります。
したがって、データが縮退していない限り、階層クラスタリングに相関を使用しても問題ありません。上記で説明したように前処理してから、ユークリッド距離の平方を使用します。
Only ward's method is special, and should be used with squared Euclidean
。病棟だけではありません。重心または重心からの偏差を計算する方法には、幾何学的な精度のために、ユークリッドまたは平方ユークリッド(実装に応じて)距離が必要です。そのようなものを失い、当然の警告があれば、それらは他のメトリック距離で使用できます。これらのメソッドは、重心、「中央値」、ワード、分散(ワードと混同しないでください!)、およびその他のメソッドです。