相関係数の数学的期待値の計算または


8

math.stackexchange.comからの質問を再投稿していますが、math.seの現在の答えは正しくないと思います。

選択セットから番号、ある番目の数が選択され、の階数であるにおける番号。選択は置換なしです。は常により小さい。ランクは、数値を昇順でソートした後のaの順序です。n{1,2,...,U}yiixiyinnUn

我々が得ることができるのデータポイント、そして、これらのデータポイントのための最良適合線は線形回帰により求めることができます。 (相関係数)は適合線の良さです。または(決定の相関を計算します。n(x1,y1),(x2,y2),...,(xn,yn)rxyE(rxy)E(rxy2)

場合、推定を計算することができない、または下界OK依然としてあります。E[rxy]

更新:ランダムに生成されたデータを使用してサンプル相関係数を計算すると、が1に非常にことがわかります。したがって、理論的な観点から証明したい、または上記の方法で生成されたデータは非常に線形。rxy

更新:サンプル相関係数の分布を取得することは可能ですか?


math.SEの質問へのリンクを投稿してください。通常、かなりの時間が経過しない限り、クロスポストすることは適切ではありません。
枢機卿、

同じ番号を2回選択できますか?nはUよりも小さいですか、大きいですか?
Nick Sabbe、

1
math.SEに関する前の質問は次のとおりです
枢機卿

@Nick Sabbe選択は置換なしです。nは常にU.よりも小さくなっている
ファン張

1
@Fan適用可能な手法には、ランダム変数の二次形式(stats.stackexchange.com/questions/9220)、ランダム変数の関数のモーメントを推定するための「デルタ法」が含まれます。一様変数の次数統計の分布; 一様変数と指数分布の間のギャップと、場合によっては鞍点法、正規近似、中心極限定理などの関係
whuber

回答:


1

となるように、新しい変数の観点から問題を再配置します。@whuberがコメントで指摘したように、次に z_になります。したがって、でを効果的に回帰し、です。したがって、の周辺分布を、それが基本的に線形であることを示すことができれば、問題は解決され、ます。1z1<z2<<znU(xi,yi)=(xi,zxi)zjjrxy=rxzzjjrxy1

最初に、の結合分布が必要です。これは、あなたが解決した後は非常に簡単ですが、私が計算をする前に、それが簡単ではないことに気づきました。数学の成果を上げるための簡単なレッスンです。最初に数学を紹介し、次に簡単な答えを紹介します。z1,,zn

現在、元の結合分布はです。変数を変更しても、離散確率のラベルが付け直されるだけなので、確率は一定です。ただし、ラベルは1対1ではないため、単にと書くことはできません。代わりに、p(y1,,yn)1p(z1,,zn)=(Un)!U!

p(z1,,zn)=1C1z1<z2<<znU

そして、正規化によって を見つけることができますC

C=zn=nUzn1=n1zn1z2=2z31z1=1z21(1)=zn=nUzn1=n1zn1z2=2z31(z21)
=zn=nUzn1=n1zn1z3=2z41(z31)(z32)2=zn=nUz4=4z51(z41)(z42)(z43)(2)(3)
=zn=nUzn1=n1zn1zj=jzj+11(zj1j1)=(Un)

これは、再ラベル付け比率が等しいことを示しています -ごとにがあります値。上のラベルの順列は、ランク付けされた値の同じセットにつながるため、理にかなっています。ここで、周辺分布。上記を繰り返しますが、の合計が削除され、残りの合計の範囲が異なります。つまり、最小値がから、そして次のようになります:(Un)!U!(Un)=1n!(z1,,zn)n! (y1,,yn)yiziz1z1(2,,n)(z1+1,,z1+n1)

p(z1)=zn=z1+n1Uzn1=z1+n2zn1z2=z1+1z31p(z1,z2,,zn)=(Uz1n1)(Un)

サポートあり。この形式と少しの直感を組み合わせると、周辺分布はように推論できることがます。z1{1,2,,U+1n}zj

  1. 下の値を選択します。これは、方法で実行できます(場合)。j1zj(zj1j1)zjj
  2. 値選択します。これは1つの方法で実行できます。そしてzj
  3. 選択上記の値で行うことができる方法を(もし)njzj(Uzjnj)zjU+jn

この推論方法は、(てサンプル共分散の期待値を計算するために使用できるなどの共同分布に努力して一般化します。したがって、次のようになります。p(zj,zk)

p(zj)=(zj1j1)(Uzjnj)(Un)jzjU+jnp(zj,zk)=(zj1j1)(zkzj1kj1)(Uzknk)(Un)jzjzk+jkU+jn

これで限界は、パラメーター(論文の表記に関して)を持つ負の超幾何分布の pdfです。これはで正確に線形ではないことが明らかですが、限界期待値はk=j,r=n,N=Ujzj

E(zj)=jU+1n+1

これは確かにで線形であり、回帰からのベータ係数とゼロの切片を期待します。jU+1n+1

更新

少し前に答えを止めました。うまくいけば、より完全な答えを完成させました

まかせ、および、正方形の予想と間のサンプル共分散は、で与えられます。j¯=n+12z¯=1nj=1nzjjzj

E[sxz2]=E[1nj=1n(jj¯)(zjz¯)]2
=1n2[j=1n(jj¯)2E(zj2)+2k=2nj=1k1(jj¯)(kj¯)E(zjzk)]

したがって、。ここで、および(pdfファイルの式を使用)。したがって、最初の合計はE(zj2)=V(zj)+E(zj)2=Aj2+BjA=(U+1)(U+2)(n+1)(n+2)B=(U+1)(Un)(n+1)(n+2)

j=1n(jj¯)2E(zj2)=j=1n(j22jj¯+j¯2)(Aj2+Bj)
=n(n1)(U+1)120(U(2n+1)+(3n1))

も必要です。 E(zjzk)=E[zj(zkzj)]+E(zj2)

E[zj(zkzj)]=zk=kU+knzj=jzk+jkzj(zkzj)p(zj,zk)
=j(kj)zk=kU+knzj=jzk+jk(zjj)(zkzjkj)(Uzknk)(Un)=j(kj)zk=kU+kn(zk+1k+1)(U+1(zk+1)nk)(Un)
=j(kj)(U+1n+1)(Un)=j(kj)U+1n+1
E(zjzk)=jkU+1n+1+j2(U+1)(Un)(n+1)(n+2)+j(U+1)(Un)(n+1)(n+2)

そして2番目の合計は:

2k=2nj=1k1(jj¯)(kj¯)E(zjzk)
=n(U+1)(n1)720(n+2)(6(Un)(n32n29n2)+(n+2)(5n324n235n+6))

そして、かなり退屈な操作を行った後、次の2乗共分散の期待値が得られます。

E[sxz2]=(n1)(n2)U(U+1)120(U+1)(n1)(n3+2n2+11n+22)720(n+2)

我々が持っている場合今、最初用語支配をそのまま第2項があるのに対し、。支配的な項がによって十分に近似されていることを示すことができ、ピアソン相関がに非常に近いという別の理論的な理由がありという事実を超えて)。U>>nO(U2n2)O(Un3)E[sx2sz2]1E(zj)j

これで、予想されるサンプル分散はサンプル分散であり、。の予想されるサンプル分散は、で与えられます。jsx2=1nj=1n(jj¯)2=(n+1)(n1)12zj

E[sz2]=E[1nj=1n(zjz¯)2]=1nj=1nE(zj2)[1nj=1nE(zj)]2
=A(n+1)(2n+1)6+B(n+1)2(U+1)24
=(U+1)(U1)12

すべてを組み合わせて、であることに、次のようになります。E[sx2sz2]=sx2E[sz2]

E[sx2sz2]=(n+1)(n1)(U+1)(U1)144(n1)(n2)U(U+1)120E[sxz2]

とほぼ同じですE[rxz2]1


私はあなたの答えを理解しました、そして私の質問はあなたの現在の状態から相関係数の期待をどうやって得るかです
ファン張

今日はその答えだけを見て申し訳ありません。である場合、なぜかを明確にする必要があると私は思います。E[sx2sz2]E[sxz2]E[rxz2]1
ファン張

最後のステップは間違っていると思います。E [X / Y]はE [X] / E [Y]と等しくありません。
ファン張

@FanZhang-最後のステップはほぼ正しいです。これは、をについての1展開できるためです。そして、。ので、期待存在する任意のランダム変数について、我々は、取得。g(X,Y)=XY(E[X],E[Y])XYE[X]E[Y]+(XE[X])1E[Y](YE[Y])E[X]E[Y]2E(XE[X])=0E(XY)E[X]E[Y]
確率論的

ありがとうございました。そして、この種類の近似は何と呼ばれていますか?
ファン張

3

が1に近いことだけを示し、その下限を計算する場合、それは簡単です。これは、指定されたおよびについて、残差の分散を最大化するだけでよいことを意味します。これは、正確に4つの対称的な方法で実行できます。 2つの極値(可能な最小相関と最大相関)が示されています。rxy2UnU=20,n=9

U = 20、n = 9の極端な相関プロット

大きな値と適切な値の、は実際には0に近づく可能性があります。たとえば、で非常に大きな値の場合、最悪の場合。Unrxy2n=100Unrxy20.03


したがって、私たちはが1に近いことを示すようにしています(または、ほぼ直線が見つかることを期待できます)[Zhang Fanでこの問題に取り組んでいます]。ながらいくつかの場合には悪い、これらの場合の比較的少数があるべきです。したがって、この問題を解決するための1つの希望は、たとえば(またはその他の限界)のケースの数を制限することです。E(rxy2)rxy2rxy20.99
Douglas S. Stones、

0.99を検討するのに妥当な範囲であることを期待しています。たとえば、Rでいくつかの例を計算すると、1 に非常に近いcor(x、y)を一貫して取得できます。たとえば、0.9994561は、次のような典型的な結果を返します。m <-10 ^ 5; n <-10 ^ 3; リスト<-sample(1:m、size = n、replace = FALSE); リスト<-sort(list); cor(list、1:n);
Douglas S. Stones、

@Douglasこれは、かなり単純化する可能性があることを示唆しています。0.99のようなターゲットを取ることにより、に現れる二次形式の比率を差に変換でき(分母をクリアすることにより)、その可能性を調査します。差はプラスです。これで、一様にランダムな順列の下で2次形式の分布を見ていることになります。これはアクセス可能な問題です。rxy2
whuber

@ Douglas、@ Fanヒューリスティックも実行できます。漸近的に、は均一に見え、をとして示します。たとえば、コルモゴロフ-スミルノフ統計考えます。これを残差の上限として使用すると、(総)過大推定に比例することが示されます。したがって、は少なくとも同じ速さです。yir21UD1r2r21D0
whuber

@whuberコルモゴロフ・スミルノフ統計Dについて、もっと詳しい説明はありますか?
ファン・チャン、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.