標本相関は常に標本分散と正の相関がありますか?


7

サンプル相関とサンプル標準偏差(と呼ぶ)は、正の真の相関を持つ二変量正規、をシミュレートすると正の相関があるように見えます(と間の真の相関が負の場合は負の相関があるようです)負)。これはやや直観に反することがわかりました。非常にヒューリスティックに、がXの1 SDの増加に対するYの予想される増加(SD(Y)の単位)を表すという事実を反映していると思いますが大きくなると推定すると、はYの変化を反映します。 Xのより大きな変更に関連付けられています。rXsXXYXYrsXr

しかし、私はかどうかを知りたいのため(少なくともX及びYは、正常と大きいnの二変量である場合について)一般的に成り立ちます。まかせ表す真SD、我々が持っています:Cov(r,sx)>0r>0σ

Cov(r,sX)=E[rsX]ρσx

E[Cov^(X,Y)sY]Cov(X,Y)σY

最初の項でテイラー展開を使用してみましたが、それはにため、行き止まりです。何か案は?Cov(Cov^(X,Y),sY)

編集

たぶん、より良い方向は、であることを示すことを試みることですここで、は、X上のYのOLS係数です。それから、、これは望ましい結果を意味します。以来ほとんどのサンプル手段の違いのようなものです、多分私達は通常のRV用のサンプル平均と分散の既知の独立性のようなものを使用して元の結果を得ることができますか?Cov(β^,sX)=0β^β^=rsYsXβ^


変更されません。うーん。ただし、関連性はまだわかりません。
ハーフ渡し

私はおそらくも:) ...それはないですが、私は希望している間、これは宿題の質問だったことに注意しなければならない
半分は、合格

1
ああ、質問を注意深く読みませんでした。謝罪いたします。
jbowman

計算の最初の等式が正しくありません。 は標準偏差と一致していますが、偏りはありません:en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviationsx=sx2
Andrew M

ただし、大きなnの場合は不偏に非常に近くなります。通常のRVの経験則の補正係数は(n-1.5)対(n-1)です。
ハーフ渡す

回答:


4

TL; dr

は、混合された4次モーメントの特別な条件が満たされた場合のみ、サンプル共分散の非対角要素は、通常、対角要素と相関します。場合二変量ガウス分布である、これらの条件は、ときにのみ保持無関係である。E(XY3)E(XY)E(Y2)=0(X,Y)XY

細部

限界分布をサンプル共分散(CLTにより、多変量正規になる)で調べ、デルタ法を適用することにより、ここに示すことができる漸近的な結果があります。これは残念ながら、サンプルの共分散分布の導出を迂回する必要があることを意味します。オンラインで適切な参照を見つけることができないためです。あるいは、正規性を仮定しても構わない場合は、ウィシャート分布の共分散の知識があれば、セクション2に直接スキップできます。n1

1サンプルの共分散の漸近分布

LET二変量分布からIIDサンプルである有限の4次モーメントと、およびlet 一般性を失わずに、煩わしい追加の簿記を避けるために、と仮定します 。 V1,,VnVi=(XiYi)

Cov(Vi)=(σ2ρστρσττ2)=Σ.
E(Vi)=0

次に、期待値の線形性と大きな数の弱い法則により、サンプルの共分散 は不偏で一貫しています、そして実際には

Sn=1n1i=1n(ViV¯n)(ViV¯n)T=1n1i=1ViViTnn1V¯nV¯nT
Σ
n(SnΣ)dN(0,Λ).

したがって、演習は決定に移ります Λ。対称行列の場合A=(abbc)、させて A~=(a,b,c)T上三角の「ベクトル化」である。ここで、主要な項(散布図行列)に入る平均の単一要素を考えます。Sn

Z~i=ViViT~=(Xi2XiYiYi2).
明らかにゼロ平均の仮定により、すでに E(Zi)=Σ~ そしての力を考慮することによって X そして Y に現れる Z~iZ~iT 私たちはただ書くことができます
Cov(Z~i)=E(Z~iZ~iT)E(Z~i)E(Z~i)T=(κ40σ4κ31σ2τκ22σ2τ2κ31σ2τκ22σ2τ2κ13στ3κ22σ2τ2κ13στ3κ04τ4)Σ~Σ~T.

ここに

κij=E[(Xiσ)i(Yiτ)j]
を示します ij混合された標準化されたモーメント(平均についてですが、最初は平均ゼロと仮定しました)。

あるいは、因数分解があります

Cov(Z~i)=D(σ,τ)[KR(ρ)R(ρ)T]D(σ,τ),(1)
どこ D(σ,τ)=diag(σ2,στ,τ2)R(ρ)=(1,ρ,1)T そして
K=κ04κ31κ22κ31κ22κ13κ22κ13κ04

したがって、 Z11 そして Z12の標本分散を表す バツ との共分散 バツY 相関しない限り ρ=κ31。いつV 多変量正規です。これは次の場合にのみ発生します ρ=0

2相関係数

今、変革を考えて gバツyz=バツyzバツ オン S。これは、サンプル相関係数の2変量分布とxのサンプル分散を提供します。デルタ法と漸近正規性S

gSρσ2TN0JΣTΛJΣ
どこ JΣ=[g1Tg2T]T のヤコビアンです g

私は(おそらくあなたは私の代数をチェックしたいと思うかもしれませんが…) g です

g2σ2ρσττ2=ρ2σ21στρ2τ2T

そう
Jσρτ=1ρ2σ201στ0ρ2τ2

式(1)の因数分解とすべてまとめると、

JσρτTDστ[KRρRρT]DστJσρτ

使いやすい数字を差し込む、と言うσ=τ=1 そして ρ=.5、私たちは

JσρτTDστ[KRρRρT]DστJσρτ=1/411/4100Ω1/41101/40=Q
どこ Ω=KRρRρT一般的に、いくつかの密な行列です。Mathematicaの厚意により、この製品をK と以下に再カウント Q12
×Q12=×Covrsバツ2=κ31κ04+κ2242
これは混合モーメントに関しては不透明な表現ですが、一般的にはゼロになるとは思えません。

3通常のケースに特化

イッサリスの定理は、ガウスの混合モーメントを導き出す方法を提供します。再び仮定σ=τ=1 そして ρ=.5、私たちは持っているだろう κ31=/2κ04=κ22=/2したがって、 Q12=/2+/2/4=/8>0、あなたが観察するように。

4シミュレーションと例

シミュレーション検証式(1)を以下に示します。ために=100 そして =1000 (それぞれ赤と青で)多変量正規からのiid観測、私はの共分散を導きます Sブートストラップによって。間の共分散Sバツy そして Sバツバツ y軸にプロットされます ρ 異なる .9.9。式(1)からの理論値と、2変量ガウスの4次モーメントに関する事実を使用すると、黒い破線でプロットされます。

シミュレーション検証式(1)

楽しい練習は、任意の値のコピュラの家族を見つけることを試みることです ρ レンダリングする CovSバツySバツバツ=0...

library(mvtnorm)
library(tidyverse)
library(boot)
params = expand.grid(sx = 1, sy = 1, n = c(100, 1000), rho = seq(-.9, .9, by = .1), replicate = 1:10) %>% mutate(k04 = 3*sx^4, k31 = 3*sx*rho*sx*sy, q12 = k31 - rho*sx*sy)

Sn_tilde = function(dat, idx){
    Sn = cov(dat[idx,,drop =FALSE])*sqrt(length(idx))
    Sn[upper.tri(Sn, diag = TRUE)]
}

out = params %>% group_by_all() %>% do({
    x = with(., rmvnorm(n = .$n, sigma = matrix(c(sx^2, rho*sx*sy,
                                            rho*sx*sy, sy^2), nrow = 2)))
colnames(x) = c('X', 'Y')
b = boot(x, Sn_tilde, R = 500)
cov_Sn = cov(b$t)
    rownames(cov_Sn) = colnames(cov_Sn) = c('Sxx', 'Sxy', 'Syy')
    as_tibble(cov_Sn, rownames = 'j')
})


ggplot(filter(out,  j == 'Sxx'), aes(x = rho, y = Sxy, color = factor(n))) + geom_point(size = .5, alpha = .5) + geom_smooth(method = 'lm') + geom_line(data = filter(params, replicate == 1, n == 100), aes(y = q12), lty = 2, color = 'black') + theme_minimal() + ylab('Cov(Sxy, Sxx)')


1 これは、確率と数学的統計に関するMichael Perlmanの講義ノートを多用しています。これは、電子的に利用できるようにして、私の消耗品が消耗したときに交換できるようにしたいです...


ありがとうございました!しかし、どこかにミスステップがあるかもしれません。実際、Covrsバツ0、3/8ではなく、経験的に(ただし Corrrsバツ なぜなら Varrsバツ0 そして Varrsバツ0)。
ハーフ渡す

表示方法もわからないので、これについて新しい質問をします Covrsバツ0
ハーフパス

(+1)非常に興味深い投稿。二変量についてはN01、表現 2 評価する ρ10.5ρ2。これにより、ρ<0.35Covrsバツ2<0 一方、 ρ>0.35Covrsバツ2>0
Alecos Papadopoulos

@ half-pass:ペア rsバツ スケールアップする必要があります (非縮退)制限分布を持つこと。相関自体を調べたい場合は、セクション1の結果を使用して、gセクション2の関数。
Andrew M

1
@AlecosPapadopoulos:式2は、そのケースにすでに特化しています τ2=σ2=1 そして ρ=.5。あなたが気にするのは、sx そして r、違いの[1,2]エントリを調べるだけです KR(ρ)R(ρ)T 方程式1では、二変量法線の混合モーメントに関する事実を使用して、 K の関数として ρ
Andrew M

1

編集:この答えは正しくありません。記録のためにここに残した方が良いのか、それとも単に削除した方が良いのかわかりません。

はい、XとYの分布に関係なく、漸近的に保持されます。テイラー展開で私は正しい軌道に乗っていました。

ここに画像の説明を入力してください


私はeqを見ます。2.1、 二行目。確率制限から固定数量を差し引いたものがあります。一貫性がある場合、確率限界は固定数量と等しくなります。したがって、式の2行目。2.1 ゼロに等しいように見えます...これは予想されるはずです。 Covrsバツ 等しい Covρσバツ。しかし、両方ρ そして σバツ定数なので、それらの共分散はゼロです。得られた結果は、1)テイラーの剰余(そのサインはわからない)の無視と(CONTD)
Alecos Papadopoulos

1
(CONTD)...および2)整合性プロパティを特定の条件に選択的に適用し、他の条件には適用しないこと。これらが有効な操作であると確信していますか?
Alecos Papadopoulos

反論をありがとう。一般的なRVのUとVでは、plim E [U] E [V] = plim E [U] plim E [V]で2番目の項が得られるため、この操作を2行目で行いました。ただし、最初の項では、plim E [UV]!= plim E [U] plim E [V]です。したがって、私は一貫して、さまざまなステップだけを適用したと思います。
ハーフ渡す

...けれども私は、わからない
ハーフ渡し

わかりました-これは確かに間違っています!ただし、これは最初の操作によるものではなく、Var(s_Y)-> 0も無視したため、トートロジーが発生したと考えています。残念ながら、私は自分の答えを否定することはできません。
ハーフ合格

0

それは共同配布に依存します。あなたが言及した例では、二変量(ゼロ平均)正規分布は、ρσバツσy。したがって、これら3つのパラメーターの値のすべての可能な組み合わせを持つことができます。つまり、ρ そして、標準偏差を確立することができます。

他の二変量分布の場合、相関係数は基本的に標準偏差の関数である可能性があり(基本的には両方がより原始的なパラメーターの関数になります)、その場合、単調関係が存在するかどうかを調べることができます。


2
私は3つのパラメーターがBVN分布に対して任意の関係を持つ可能性があることを理解していますが、これらのサンプル推定が漸近的に独立しているとは思いません。
ハーフ渡し
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.