私が持っているの共分散行列をとに区分変数にしたいk個使用してクラスタ階層的クラスタリングを(例えば、共分散行列をソートします)。
変数間(つまり、正方共分散行列の列/行間)の典型的な距離関数はありますか?
それとももっとある場合、そのトピックに関する良い参考資料はありますか?
私が持っているの共分散行列をとに区分変数にしたいk個使用してクラスタ階層的クラスタリングを(例えば、共分散行列をソートします)。
変数間(つまり、正方共分散行列の列/行間)の典型的な距離関数はありますか?
それとももっとある場合、そのトピックに関する良い参考資料はありますか?
回答:
は、通常の二乗ユークリッド距離に正比例します。分散と共分散の代わりに平方和とクロス積の和を使用すると、後者が得られます。もちろん、どちらの変数も最初は中央に配置する必要があります。「共分散」と言えば、手段を削除したデータについて考えることの別名です。)
この式は、負の共分散が正の共分散よりも距離が長いことを意味します(これは、幾何学的な観点から、つまり変数が対象空間でベクトルとして見られる場合に当てはまります)。共分散の符号を使用したくない場合は、負の符号を廃止します。負の符号を無視することは「手でパッチする」操作ではなく、必要なときに保証されます。cov行列が正定の場合、abs(cov)行列も正定になります。従って、上記式によって得られた距離がtrueになりユークリッド距離(ユークリッド距離は、特定の一種であるメトリック距離)。
ユークリッド距離は、階層的クラスタリングに関して普遍的です。そのようなクラスタリングの方法は、ユークリッドまたは二乗ユークリッドdのいずれでも有効です。しかし、平均リンケージや完全リンケージなどのいくつかの方法は、(距離だけでなく)任意の非類似度または類似度で使用できます。したがって、そのようなメソッドをcovまたはabs(cov)マトリックスで直接使用することができます-または、たとえば、max(abs(cov))-abs(cov)距離マトリックスで。もちろん、クラスタリングの結果は、使用される(非)類似性の正確な性質に依存する可能性があります。
クラスタリングに相関行列を使用しないのはなぜですか?確率変数が中央にあると仮定して、変数間の相関を計算することにより、コサイン類似距離を計算します。この距離はリンクにも記載されています。この距離は、階層的クラスタリングに使用できます。1-|コサイン類似度|が小さいほど、変数はより類似しています。