距離相関計算の理解


15

私の知る限り、距離相関は、2つの数値変数間に関係があるかどうかを確認するための堅牢で普遍的な方法です。たとえば、数字のペアのセットがある場合:

(x1, y1)
(x2, y2)
...
(xn, yn)

距離相関を使用して、2つの変数(xおよびy)の間に(必ずしも線形ではない)関係があるかどうかを確認できます。また、xおよびyは、異なる次元のベクトルにすることができます。

距離相関の計算は比較的簡単です。まず、を使用して距離行列を計算します。次に、y iを使用して距離行列を計算します。x iy iの数が同じであるため(ペアになっているため)、2つの距離行列は同じ次元になります。バツyバツy

現在、ペアリングできる距離がたくさんあります。たとえば(2,3)、最初の距離行列の要素(2,3)は、2番目の距離行列の要素とペアになります。したがって、距離のペアのセットがあり、それを使用して相関(距離間の相関)を計算できます。

2種類の距離が相関している場合、Xが近いと通常Yが近いことを意味します。たとえば、x 13に近い場合、y 7y 13に近い可能性が高いことを意味します。したがって、XとYは依存していると結論付けることができます。バツ7バツ13y7y13

理にかなっているように思えますが、理解できない2つの側面があります

まず、距離相関を計算するために、2つの距離行列を直接使用しません。それらに二重センタリング手順を適用します(そのため、行(または列)のすべての要素の合計がゼロに等しくなります)。なぜそうする必要があるのか​​分かりません。このステップの背後にあるロジック(または直感)とは何ですか?

第二に、元の距離行列では、対角線上にゼロがあります。したがって、距離間の相関を計算すると、最初の行列の多くのゼロが2番目の行列の対応するゼロとペアになっているため、統計的に有意な相関があります。この問題はどのように解決されますか?

回答:


16

距離共分散/相関(=ブラウン共分散/相関)は、次の手順で計算されます。

  1. N変数によってケース間のユークリッド距離の行列を計算し、変数Yによって別の同様の行列を計算します。2つの量的特徴XまたはYのいずれも、単変量ではなく多変量である可能性があります。バツYバツY
  2. 各行列の二重センタリングを実行します。通常、二重センタリングどのように行われるかを確認してください。しかし、我々の場合には、それがない行っているときではない平方距離初めとで分裂しない終わりに。行、列の平均、および要素の全体平均はゼロになります。2
  3. 2つの結果の行列を要素ごとに乗算し、合計を計算します。または同等に、行列を2つの列ベクトルに展開し、それらの合計外積を計算します。
  4. 平均、要素の数で割るN^2
  5. 平方根を取ります。結果は、XYの間の距離共分散です。バツY
  6. 距離の分散は、Yの自己分散の距離共分散です。同様に、ポイント3-4-5を計算します。バツY
  7. 距離相関は、ピアソン相関が通常の共分散と分散のペアから取得される方法と同様に、3つの数値から取得されます。共分散を2つの分散の積の平方根で除算します。

距離の共分散(および相関)は、距離自体の共分散(または相関)ではありません。これは、「二重中心」行列を構成する特別なスカラー積(ドット積)間の共分散(相関)です。

ユークリッド空間では、スカラー積は、対応する距離と一義的に結び付けられた類似性です。2つのポイント(ベクトル)がある場合、情報を失うことなく、距離ではなくスカラー積としてその近さを表現できます。

ただし、スカラー積を計算するには、空間の原点を参照する必要があります(ベクトルは原点から取得されます)。一般的に、好きな場所に原点を配置できますが、多くの場合、便利なのは、ポイントのクラウドの幾何学的な中央、つまり平均点に配置することです。平均は雲がまたがる空間と同じ空間に属するため、次元は膨張しません。

さて、距離行列の通常の二重のセンタリング(クラウドのポイント間)は、その幾何学的な中央に原点を配置しながら距離をスカラー積に変換する操作です。そうすることで、距離の「ネットワーク」は、原点からの特定の長さとペアワイズ角度のベクトルの「バースト」に同等に置き換えられます。

ここに画像の説明を入力してください

[私の例の絵の星座は平面であり、「変数」、つまりであり、生成されたものは2次元であることを示しています。場合Xは、すべての点はもちろん、一行上にある単一列変数です。]バツバツ

ダブルセンタリング操作について少し正式に説明します。n points x p dimensionsデータ持ちます(単変量の場合)。ましょうDがである間のユークリッド距離のマトリックス点。してみましょうCはなりXその列が中央に。次に、S = 二重中心  D 2C C 'に等しく、点群が中心に置かれた後の行間のスカラー積です。ダブルセンタリングの主要な特性は1バツp=1Dn x nnCバツS=double-centered D2CC、そしてこの合計が否定の和に等しいオフの-diagonal要素Sを12nD2=trace(S)=trace(CC)S

距離相関に戻ります。距離共分散を計算するとき、何をしますか?距離の両方のネットを対応するベクトルの束に変換しました。そして、2つの束の対応する値の間の共変量(およびその後の相関)を計算します。1つの構成の各スカラー積値(以前の距離値)には、他の構成の対応するものが乗算されます。(ポイント3で述べたように)それらの「変数」の2つの行列をベクトル化した後、2つの変数間の通常の共分散を計算することとして見ることができます。

したがって、2セットの類似性(変換された距離であるスカラー積)を共変量しています。あらゆる種類の共分散はモーメントの外積です。それらのモーメント、平均からの偏差を最初に計算する必要があり、二重のセンタリングがその計算でした。これはあなたの質問に対する答えです。共分散は瞬間に基づいている必要がありますが、距離は瞬間ではありません。

(ポイント5)の後の追加の平方根の取得は論理的なようです。なぜなら、この場合、瞬間自体はすでに一種の共分散であり(スカラー積と共分散構造的には共成分です)、共分散を2倍にしたことになりました。したがって、元のデータの値のレベルに戻る(および相関値を計算できる)ためには、後でルートを取得する必要があります。

一つの重要な注意点は、最終的に行く必要があります。古典的な方法で、つまりユークリッド距離を2乗した後、ダブルセンタリングを行うと、真の距離共分散ではなく、有用ではない距離共分散になります。通常の共分散に正確に関連する量に縮退したように見えます(そして、距離相関は線形ピアソン相関の関数になります)。距離共分散/相関を一意にし、線形連想ではなく依存関係の一般的な形式を測定できるようにしているのは、変数が独立している場合にのみdCov = 0である- ダブルセンタリングを実行するときに距離を二乗ないことですポイント2)。実際には、範囲内の距離の累乗を実行しますが、標準形式はパワー 1で実行します。なぜこの累乗ではなく累乗 2が係数を非線形相互依存性の尺度とするのが容易なのかは、分布の特徴的な機能に関係する(私にとって)数学的な問題です。おそらく単純な単語との共分散/相関(私は一度試みましたが、失敗しました)。(0,2)12


ステップ3の「合計外積」では、単に通常のスカラー積を意味していますか?
kram1032

1
@ kram1032、はいSCPとスカラー積は同義語ですstats.stackexchange.com/a/22520/3277
ttnphns

8

あなたの質問は両方とも深く結びついていると思います。距離行列の元の対角線は0ですが、共分散(相関の分子を決定する)に使用されるのは距離の二重中心値です。これは、変化のあるベクトルの場合、対角線が負。

それでは、単純な独立したケースをステップスルーして、2つの変数が独立しているときに相関が0である理由について直観が得られるかどうかを見てみましょう。

バツY=[00011011]

バツY

a=[0011001111001100]

b=[0101101001011010]

A

A=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

B=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

.5.5=.25.5.5=.25.5.5=.250

0

0ab0.25

(ttnphnsが指摘しているように、パワーも重要なので、これだけでは十分ではありません。同じダブルセンタリングを行うことはできますが、直交に追加するとifおよびifプロパティが失われます。)


1
この答えにマトリックスを編集してもよろしいですか?
シャドウトーカー

@ssdecontrolの提供に感謝します!私は自分でやりましたが、他のフォーマットの変更は自由に行ってください。
マシューグレイブス

1
私はかなり理解していないあなたは、この場合には「シングル」の意味(そうでなければMattewが言ったことですか?)私にとって重要/本当に神秘的である何(私は私の答えの最後でそれを表現される)である理由(理論的には)最初に距離を二乗せずに二重センタリングを実行すると、dCovが独自の有用なプロパティを持つようになります。
ttnphns

1
@ttnphns:単一のセンタリングにより、各距離値から総平均を引くことを意味しました。いずれにせよ、距離共分散は不可解であることに同意します。
アメーバは、モニカーを復活させる

1
@amoeba私は、著者が何らかの直感的な説明と変数の複数のペアの効率的な実装でフォローアップを書くことを望みます。元の論文と距離の共分散は、ほとんどが卒業生にとってはただの気まぐれな転用に過ぎないため、10年で終わりに近づいています。実際に使用したのは、スタンでMCチェーンを診断するために実装されていなかった機能
でした
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.