距離相関計算の理解
私の知る限り、距離相関は、2つの数値変数間に関係があるかどうかを確認するための堅牢で普遍的な方法です。たとえば、数字のペアのセットがある場合: (x1, y1) (x2, y2) ... (xn, yn) 距離相関を使用して、2つの変数(xおよびy)の間に(必ずしも線形ではない)関係があるかどうかを確認できます。また、xおよびyは、異なる次元のベクトルにすることができます。 距離相関の計算は比較的簡単です。まず、を使用して距離行列を計算します。次に、y iを使用して距離行列を計算します。x iとy iの数が同じであるため(ペアになっているため)、2つの距離行列は同じ次元になります。xiバツ私x_iyiy私y_ixiバツ私x_iyiy私y_i 現在、ペアリングできる距離がたくさんあります。たとえば(2,3)、最初の距離行列の要素(2,3)は、2番目の距離行列の要素とペアになります。したがって、距離のペアのセットがあり、それを使用して相関(距離間の相関)を計算できます。 2種類の距離が相関している場合、Xが近いと通常Yが近いことを意味します。たとえば、がx 13に近い場合、y 7はy 13に近い可能性が高いことを意味します。したがって、XとYは依存していると結論付けることができます。x7バツ7x_7x13バツ13x_{13}y7y7y_7y13y13y_{13} 理にかなっているように思えますが、理解できない2つの側面があります。 まず、距離相関を計算するために、2つの距離行列を直接使用しません。それらに二重センタリング手順を適用します(そのため、行(または列)のすべての要素の合計がゼロに等しくなります)。なぜそうする必要があるのか分かりません。このステップの背後にあるロジック(または直感)とは何ですか? 第二に、元の距離行列では、対角線上にゼロがあります。したがって、距離間の相関を計算すると、最初の行列の多くのゼロが2番目の行列の対応するゼロとペアになっているため、統計的に有意な相関があります。この問題はどのように解決されますか?