距離共分散/相関(=ブラウン共分散/相関)は、次の手順で計算されます。
N
変数によってケース間のユークリッド距離の行列を計算し、変数Yによって別の同様の行列を計算します。2つの量的特徴XまたはYのいずれも、単変量ではなく多変量である可能性があります。バツYバツY
- 各行列の二重センタリングを実行します。通常、二重センタリングがどのように行われるかを確認してください。しかし、我々の場合には、それがない行っているときではない平方距離初めとで分裂しない終わりに。行、列の平均、および要素の全体平均はゼロになります。− 2
- 2つの結果の行列を要素ごとに乗算し、合計を計算します。または同等に、行列を2つの列ベクトルに展開し、それらの合計外積を計算します。
- 平均、要素の数で割る
N^2
。
- 平方根を取ります。結果は、XとYの間の距離共分散です。バツY
- 距離の分散は、とYの自己分散の距離共分散です。同様に、ポイント3-4-5を計算します。バツY
- 距離相関は、ピアソン相関が通常の共分散と分散のペアから取得される方法と同様に、3つの数値から取得されます。共分散を2つの分散の積の平方根で除算します。
距離の共分散(および相関)は、距離自体の共分散(または相関)ではありません。これは、「二重中心」行列を構成する特別なスカラー積(ドット積)間の共分散(相関)です。
ユークリッド空間では、スカラー積は、対応する距離と一義的に結び付けられた類似性です。2つのポイント(ベクトル)がある場合、情報を失うことなく、距離ではなくスカラー積としてその近さを表現できます。
ただし、スカラー積を計算するには、空間の原点を参照する必要があります(ベクトルは原点から取得されます)。一般的に、好きな場所に原点を配置できますが、多くの場合、便利なのは、ポイントのクラウドの幾何学的な中央、つまり平均点に配置することです。平均は雲がまたがる空間と同じ空間に属するため、次元は膨張しません。
さて、距離行列の通常の二重のセンタリング(クラウドのポイント間)は、その幾何学的な中央に原点を配置しながら距離をスカラー積に変換する操作です。そうすることで、距離の「ネットワーク」は、原点からの特定の長さとペアワイズ角度のベクトルの「バースト」に同等に置き換えられます。
[私の例の絵の星座は平面であり、「変数」、つまりであり、生成されたものは2次元であることを示しています。場合Xは、すべての点はもちろん、一行上にある単一列変数です。]バツバツ
ダブルセンタリング操作について少し正式に説明します。n points x p dimensions
データ持ちます(単変量の場合)。ましょうDがである間のユークリッド距離のマトリックス点。してみましょうCはなりXその列が中央に。次に、S = 二重中心 D 2はC C 'に等しく、点群が中心に置かれた後の行間のスカラー積です。ダブルセンタリングの主要な特性は1バツp=1
Dn x n
n
CバツS=double-centered D2CC′、そしてこの合計が否定の和に等しいオフの-diagonal要素Sを。12n∑D2=trace(S)=trace(C′C)S
距離相関に戻ります。距離共分散を計算するとき、何をしますか?距離の両方のネットを対応するベクトルの束に変換しました。そして、2つの束の対応する値の間の共変量(およびその後の相関)を計算します。1つの構成の各スカラー積値(以前の距離値)には、他の構成の対応するものが乗算されます。(ポイント3で述べたように)それらの「変数」の2つの行列をベクトル化した後、2つの変数間の通常の共分散を計算することとして見ることができます。
したがって、2セットの類似性(変換された距離であるスカラー積)を共変量しています。あらゆる種類の共分散はモーメントの外積です。それらのモーメント、平均からの偏差を最初に計算する必要があり、二重のセンタリングがその計算でした。これはあなたの質問に対する答えです。共分散は瞬間に基づいている必要がありますが、距離は瞬間ではありません。
(ポイント5)の後の追加の平方根の取得は論理的なようです。なぜなら、この場合、瞬間自体はすでに一種の共分散であり(スカラー積と共分散は構造的には共成分です)、共分散を2倍にしたことになりました。したがって、元のデータの値のレベルに戻る(および相関値を計算できる)ためには、後でルートを取得する必要があります。
一つの重要な注意点は、最終的に行く必要があります。古典的な方法で、つまりユークリッド距離を2乗した後、ダブルセンタリングを行うと、真の距離共分散ではなく、有用ではない距離共分散になります。通常の共分散に正確に関連する量に縮退したように見えます(そして、距離相関は線形ピアソン相関の関数になります)。距離共分散/相関を一意にし、線形連想ではなく依存関係の一般的な形式を測定できるようにしているのは、変数が独立している場合にのみdCov = 0である- ダブルセンタリングを実行するときに距離を二乗しないことですポイント2)。実際には、範囲内の距離の累乗を実行しますが、標準形式はパワー 1で実行します。なぜこの累乗ではなく累乗 2が係数を非線形相互依存性の尺度とするのが容易なのかは、分布の特徴的な機能に関係する(私にとって)数学的な問題です。おそらく単純な単語との共分散/相関(私は一度試みましたが、失敗しました)。(0,2)12