共分散行列を作る変数間の距離とは何ですか?


11

私が持っているの共分散行列をとに区分変数にしたいk個使用してクラスタ階層的クラスタリングを(例えば、共分散行列をソートします)。n×nk

変数間(つまり、正方共分散行列の列/行間)の典型的な距離関数はありますか?

それとももっとある場合、そのトピックに関する良い参考資料はありますか?


変数で階層的クラスタリングを使用する理由は何ですか?一般に、データ行列、列の変数と行の観測値について考えます。あなたが潜在的なグループを探したい場合は、例えば、階層的にクラスタリングしようとすることができ、行 /観測、または、例えば、因子分析上の /変数を。X
ガン-モニカの回復

@Piotr、はい、共分散(または相関または余弦)はスカラー積(=角度タイプの類似性)であるため、簡単かつ自然にユークリッド距離に変換できます。2つの変数の間の共分散を知るだけでなく、それらの差異が自動的に知ることを意味D:変数間のd2=σ12+σ222cov
ttnphns 2013年

この式は、負の共分散が正の共分散よりも距離が大きいことを意味することに注意してください(これは、幾何学的観点から実際に当てはまります)。共分散の符号を使用したくない場合は、負の符号を廃止します。
ttnphns 2013年

@gung対称行列なので、rows〜columnsです。私にとっては、因子分析でそれらを「回転」させるのではなく、変数のセットに分割することが重要です(実際、私は標準の変換行列ではなく、複雑な行列(量子力学における密度行列)を使用しています)。
Piotr Migdal 2013年

@ttnphnsありがとう。私を悩ませているのは、無相関の変数を分離したいということです-負の相関は私にとって(ほぼ)正の相関と同じくらい良いです。
Piotr Migdal 2013年

回答:


13

dij2=σi2+σj22covijdij2は、通常の二乗ユークリッド距離に正比例します。分散と共分散の代わりに平方和とクロス積の和を使用すると、後者が得られます。もちろん、どちらの変数も最初は中央に配置する必要があります。「共分散」と言えば、手段を削除したデータについて考えることの別名です。)

この式は、負の共分散が正の共分散よりも距離が長いことを意味します(これは、幾何学的な観点から、つまり変数が対象空間でベクトルとして見られる場合に当てはまります)。共分散の符号を使用したくない場合は、負の符号を廃止します。負の符号を無視することは「手でパッチする」操作ではなく、必要なときに保証されます。cov行列が正定の場合、abs(cov)行列も正定になります。従って、上記式によって得られた距離がtrueになりユークリッド距離(ユークリッド距離は、特定の一種であるメトリック距離)。

ユークリッド距離は、階層的クラスタリングに関して普遍的です。そのようなクラスタリングの方法は、ユークリッドまたは二乗ユークリッドdのいずれでも有効です。しかし、平均リンケージや完全リンケージなどのいくつかの方法は、(距離だけでなく)任意の非類似度または類似度で使用できます。したがって、そのようなメソッドをcovまたはabs(cov)マトリックスで直接使用することができます-または、たとえば、max(abs(cov))-abs(cov)距離マトリックスで。もちろん、クラスタリングの結果は、使用される(非)類似性の正確な性質に依存する可能性があります。


dij2dij2

@HelloGoodbye、はい、私は等しい手段を持つ2つの変数(ベクトル)を意味します-実際には、最初の例では、手段が削除されています。
ttnphns 2016年

3

クラスタリングに相関行列を使用しないのはなぜですか?確率変数が中央にあると仮定して、変数間の相関を計算することにより、コサイン類似距離を計算します。この距離はリンクにも記載されています。この距離は、階層的クラスタリングに使用できます。1-|コサイン類似度|が小さいほど、変数はより類似しています。


d(i,j)=1Aij2/(AiiAjj)

3
ああ、誤解してすみません。私が知っている最高の情報源はこれです。彼らは、階層的クラスタリングを使用して(相関を使用する)いくつかのメトリックの品質を研究します。階層的クラスタリングでは、通常、多くのメトリックを試し、特定の目標とデータに最適なメトリックを確認します。
ホルヘバヌエロス2013年

リンクが機能していないようです。
Matifou
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.