3変数のピアソン相関の類似


17

3つの変数の「相関」が何かであるかどうかに興味があります。

ピアソンの積率相関係数

E{(XμX)(YμY)}Var(X)Var(Y)

ここで、3つの変数の質問:Is

E{(XμX)(YμY)(ZμZ)}Var(X)Var(Y)Var(Z)

何か?

Rでは、解釈可能なもののように見えます:

> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942

通常、3番目の変数の値が固定されている2つの変数間の相関関係を調べます。誰かが明確にできますか?


2
1)2変量Pearsonの式で、「E」(コードの意味)がnによる除算を意味する場合、st。偏差もn(n-1以外)に基づいている必要があります。2)3つの変数をすべて同じ変数にします。この場合、我々は相関が(二変数の場合のように)1であることを期待し、悲しいかなは...
ttnphns

3変量正規分布の場合、相関関係に関係なくゼロです。
レイクープマン

1
私は本当にタイトルがまたは同様の「3つの変数のためのピアソン相関の類推」に変更されることから利益を得るであろうと思う-それはここのリンクではなく、より有益になるだろう
紙魚

1
@Silverfish同意します!タイトルを更新しました、ありがとう。
PascalVKooten

回答:


11

それ確かに何かです。調べるには、相関関係自体について知っていることを調べる必要があります。

  1. ベクトル値のランダム変数の相関行列は、標準化されたバージョンの分散共分散行列または単に「分散」です。つまり、各は、再センタリングされ、再スケーリングされたバージョンに置き換えられます。X X iX=(X1,X2,,Xp)XXi

  2. との共分散は、中心バージョンの積の期待値です。つまり、およびと、XiX i = X iE [ X i ] X j = X jE [ X j ]XjXi=XiE[Xi]Xj=XjE[Xj]

    Cov(Xi,Xj)=E[XiXj].
  3. と書くの分散は、単一の数値ではありません。値の配列 ヴァーXヴァーX I 、J = CovをX IXのJXVar(X)

    Var(X)ij=Cov(Xi,Xj).
  4. 意図された一般化の共分散を考える方法は、それをテンソルと考えることです。これは、からまでのとでインデックス付けされた数量コレクション全体であり、その値はが線形変換を受けると特に予測可能な方法で変化することを意味します。具体的には、を別のベクトル値のランダム変数と定義します。 i j 1 p X Y = Y 1Y 2Y qvijij1pXY=(Y1,Y2,,Yq)

    Yi=j=1paijXj.

    定数(及びあるインデックス -電力ではない)を形成アレイ、と。期待の線形性は、aijijjq×pA=(aij)j=1,,pi=1,,q

    Var(Y)ij=aikajlVar(X)kl.

    マトリックス表記では、

    Var(Y)=AVar(X)A.
  5. すべてのコンポーネントは、実際には偏光アイデンティティのために単変量の分散ですVar(X)

    4Cov(Xi,Xj)=Var(Xi+Xj)Var(XiXj).

    これは、単変量のランダム変数の分散を理解すれば、すでに二変量変数の共分散を理解していることを示しています。それらは分散の「単なる」線形結合です。


質問の式は完全に類似しています:変数はように標準化されています。標準化されているかどうかにかかわらず、変数の意味を考慮することで、それが何を表すかを理解できます。ように、各を中央バージョンに置き換え、3つのインデックスを持つ数量を形成します。Xi(1)Xi(2)

μ3(X)ijk=E[XiXjXk].

これらは次数3中心(多変量)モーメントです。以下のように、それらはテンソルを形成する:とき、次いで(4)Y=AX

μ3(Y)ijk=l,m,nailajmaknμ3(X)lmn.

この三重和のインデックスは、からまでの整数のすべての組み合わせに及びます。1p

偏光アイデンティティの類似物は

24μ3(X)ijk=μ3(Xi+Xj+Xk)μ3(XiXj+Xk)μ3(Xi+XjXk)+μ3(XiXjXk).

右側では、は(単変量)中央の3次モーメント、つまり中心変数の立方体の期待値を指します。変数が標準化されている場合、この瞬間は通常歪度と呼ばれます。したがって、我々は考えることができるであるとして、多変量歪度の。これは、ランク3(つまり、3つのインデックス)のテンソルであり、その値は、さまざまな和と差の歪度の線形結合です。解釈を求める場合、これらのコンポーネントは、歪度が1次元で測定されている場合でも、次元で測定されると考えます。多くの場合、μ3μ3(X)XXip

  • 最初の瞬間は、分布の場所を測定します

  • 二次モーメント(分散共分散行列)はその広がりを測定します。

  • 標準化された2次モーメント(相関)は、次元空間での広がりの変化を示します。そしてp

  • 標準化された3番目と4番目のモーメントは、その広がりに対する分布の形状を測定するために使用されます。

多次元の「形状」の意味を詳しく説明すると、多変量分布を原点にあり、すべての方向に均等に広がる標準バージョンに減らすメカニズムとしてPCAを理解できることがわかりました。PCAが実行された後、は分布の多次元形状の最も単純なインジケーターを提供します。データは経験的分布の観点から常に分析できるため、これらのアイデアはランダム変数に関してもデータに等しく適用されます。μ3


参照

アラン・スチュアート&J.キース・オード、ケンダル統計統計の 第5版、第1巻:分布理論。第3章、モーメントとキュムラント。オックスフォード大学出版局(1987)。


付録:偏光アイデンティティの証明

ましょう代数的変数です。ありすべての加算および減算する方法それらのは。これらの和と差のそれぞれを乗して、それらの結果のそれぞれに適切な符号を選択​​し、それらを加算すると、倍数が得られます。x1,,xn2nnnthx1x2xn

より正式には、をのすべてのタプルのセットとし、任意の要素がベクトルその係数はすべてです。クレームはS={1,1}nn±1sSs=(s1,s2,,sn)±1

(1)2nn!x1x2xn=sSs1s2sn(s1x1+s2x2++snxn)n.

実際、多項定理は、右辺の任意の項の展開において、単項式(は合計する非負の整数)の係数側は i j nx1i1x2i2xninijn

(ni1,i2,,in)s1i1s2i2snin.

要するに、関係する係数各対の一方は、ケース含むペアで現れる係数に比例すると、 回等しいです、及び各対の他方はケース含む、係数比例とに倍に等しい。が奇数の場合、合計でキャンセルされます。同じ引数が適用されます。その結果、(1)x1i1s1=1s1s1i11s1=11(1)i1(1)i1+1i1+1i2,,in非ゼロ係数で発生する唯一の単項式は、すべての奇数乗でなければなりません。xi そのような単項式はです。係数すべての項で。その結果、その係数は、QEDx1x2xn(n1,1,,1)=n!2n2nn!

関連付けられた各ペアの半分のみを取得する必要があります。つまり、右側を項に制限し、左側の係数を半分にすることができます。これは、と場合について、この回答で引用されている偏光IDの2つのバージョンを正確に示しています:と。x1(1)s1=12n1n!n=2n=32212!=42313!=24

もちろん、代数変数の偏光恒等式は、ランダム変数に対して即座にそれを暗示します。各ランダム変数ます。双方の期待に応えます。結果は期待の線形性に従います。xiXi


これまで説明してきました!多変量歪度は理にかなっています。この多変量歪度の重要性を示す例を追加していただけますか?統計モデルの問題として、またはおそらくもっと興味深いものとして、実際のどのようなケースが多変量歪度の影響を受けますか?
-PascalVKooten

3

うーん。実行すると...

a <- rnorm(100);
b <- rnorm(100);
c <- rnorm(100)
mean((a-mean(a))*(b-mean(b))*(c-mean(c)))/
  (sd(a) * sd(b) * sd(c))

それは0に集中しているようです(実際のシミュレーションは行っていません)が、@ ttnphnsが示唆するように、これを実行します(すべての変数は同じです)

a <- rnorm(100)
mean((a-mean(a))*(a-mean(a))*(a-mean(a)))/
  (sd(a) * sd(a) * sd(a))

また、0を中心とするようです。


2
ナンセンスsdは、共分散と同様に、または分散が二乗の関数であるという事実に由来するようです。もともと乗条件に基づいて、分母の遺骨がいる間しかし、3つの変数で、キュービングは、分子中に発生した
ttnphns

2
それはその根源ですか?分子と分母の次元と単位は同じであり、それらは相殺されるため、それだけではメジャーの形式が不十分になりません。
ニックコックス

3
@Nickそうです。これは、単に多変量の中央3次モーメントの1つです。これは、3次モーメントの完全なセットを提供するランク3テンソルの1つのコンポーネントです(これは、多変量キュムラント生成関数の3次コンポーネントに密​​接に関連しています)。他のコンポーネントと組み合わせて、分布の非対称性(高次元の「歪度」)を記述するのに役立ちます。しかし、だれもが「相関」と呼ぶものではありません。ほとんどの定義では、相関は標準化された変数の2次プロパティです。
whuber

1

3つ以上の変数間の「相関」を計算する必要がある場合、ピアソンは使用できません。この場合、変数の順序が異なるため、こちらをご覧ください。線形依存性、またはそれらが3Dラインによってどれだけうまく適合しているかに興味がある場合は、PCAを使用し、最初のPCの説明された分散を取得し、データを置換し、この値がランダムな理由によるものである可能性を見つけます。ここでようなことを説明しまし(以下の技術詳細を参照)。

Matlabコード

% Simulate our experimental data
x=normrnd(0,1,100,1);
y=2*x.*normrnd(1,0.1,100,1);
z=(-3*x+1.5*y).*normrnd(1,2,100,1);
% perform pca
[loadings, scores,variance]=pca([x,y,z]);
% Observed Explained Variance for first principal component
OEV1=variance(1)/sum(variance)
% perform permutations
permOEV1=[];
for iPermutation=1:1000
    permX=datasample(x,numel(x),'replace',false);
    permY=datasample(y,numel(y),'replace',false);
    permZ=datasample(z,numel(z),'replace',false);
    [loadings, scores,variance]=pca([permX,permY,permZ]);
    permOEV1(end+1)=variance(1)/sum(variance);
end

% Calculate p-value
p_value=sum(permOEV1>=OEV1)/(numel(permOEV1)+1)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.