XとXYのランダム変数間の相関係数が0.7になる傾向があるのはなぜですか


49

ダグラス・アルトマンが285ページで書いている医学研究のための実践統計から取られた:

... XとYの2つの数量について、XはXYと相関します。実際、XとYが乱数のサンプルであっても、XとXYの相関関係は0.7であると予想されます。

私はRでこれを試しましたが、そうであるようです:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

何故ですか?この背後にある理論は何ですか?


どの部分の説明が必要ですか?xとyの間の既知の相関、およびxとxyの間の共分散のために生じる相関の単純化された式が必要ですか?または、なぜここに共分散があるのか​​を知りたいだけですか?
ジョン

これは、のために真である任意の YXZが無相関で、Y = X Zであると仮定します。それから私容疑者Xはと関連付けられることはありませんX - YをXYXZY=XZXXY
ヘンリー

回答:


69

場合はYがある無相関等分散を持つ確率変数σ 2、その後、我々はその持って VARをX - YをXYσ2 従って、ρXX-Y=COVXX-Y

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
だから、あなたが見つけたときに Σを N iが= 1XI- ˉ XXI-YI- ˉ X - ˉ Y
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
サンプルの相関X及びX-Y大きなデータセットについて{XIYI1IN
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy特殊なケースとして「乱数」を含むこれらのプロパティを持つ母集団から描画すると、結果は母集団相関値 1に近い傾向があります。{(xi,yi):1in}120.7071

どのようにもう少し説明してくださいcov(X,X)-cov(X,Y)=s^2
nostock

5
cov(X、X)はvar(X)の別名です。XとYは無相関であると仮定されるため、cov(X、Y)= 0です(したがって共分散= 0)。
ディリップサルワテ

58

幾何学的統計的説明。

n 2 XYXY

XYr=0

XY

XYX+Y

XYX+Y2σ2XXYX+Y0.707...

ここに画像の説明を入力してください


4
このアプローチを共有するための大きな+1。
whuber

(+1)これはこれを提示する非常にきちんとした方法です!
マットクラウス

ああ...写真!(+1)よくやった。:-)
枢機

11

ここにも対称性に基づく単純な直観があると思います。XとYは同じ分布を持ち、共分散が0であるため、X±YとXの関係は、X±Yの変動の半分を「説明」するはずです。残りの半分はYで説明する必要があります。したがって、R 2は1/2でなければなりません。つまり、Rは1 /√2≈0.707です。


これは良い直感のようですが、場合r2=12r1/21/2

いいえ、それは本当に標準的ではありません。(証拠が必要な場合は、一番上の回答を
ご覧ください

r2=1/2r=1/2

3

ここに、なぜ相関関係があるのか​​を簡単に考えてみましょう。

2つの分布を減算するとどうなるか想像してみてください。xの値が低い場合、平均して、x - yxの値が高い場合よりも低い値になります。xがx - y増加すると、平均して増加するため、正の相関があります。


4
私はあなたの文が常に真であるとは思わない「数学的関係があるときは常に2つのランダムな分布の間の相関関係があるでしょう。」x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat

4
@curious_cat:または、さらに刺激的にするために、y完全に削除します。:
枢機
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.