共分散推定量の分母がn-1ではなくn-2にならないのはなぜですか?


36

(不偏)分散推定量の分母はであり、観測値があり、推定されるパラメーターは1つだけです。n1n

V(X)=i=1n(XiX¯)2n1

同様に、2つのパラメーターを推定するときに共分散の分母をにしないのはなぜでしょうか?n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1

15
その場合、分散の2つの矛盾する定義があります。1つは最初の式で、もう1つは適用される2つ目の式です。Y=X
whuber

3
二変量平均(期待値)は1つのパラメーターであり、2つのパラメーターではありません。
ttnphns

14
@ttnphnsそれは事実ではありません。2変量平均はそれを表現するために2つの実数を必要とするため、明らかに 2つのパラメーターです。(実際には、単一であるベクトルパラメータが、そう言ってのみ、2つの成分を有することを偽装。)このショーアップ明示的にプールされ、分散t検定の自由度で、例えば、のために2減算し、しない1。何この質問について興味深いことは、それは誤解を招くだけでどのように漠然とした、unrigorous、および潜在的に明らかにどのようなことは、我々が引くという共通の「解説」である1からn 1つのパラメータが推定されているので。
whuber

@whuber、あなたはその通りです。重要なのがn(独立した観測値)だけであれば、単変量テストよりも多変量テストでdfを多く使うことはありません。
ttnphns

3
@whuber:「パラメータ」として数えるものが状況に依存していることを示しているとおそらく言うでしょう。この場合、分散計算されるオーバーn観測及び各観察そう-又は総平均が- ttnphnsが言ったように、それは多変量平均であっても、一つのパラメータと見なすことができます。ただし、テストで次元の線形結合を考慮する他の場合、各観測の各次元は「パラメータ」になります。これはトリッキーな問題です。
アメーバは、モニカーを復活させる

回答:


31

共分散分散です。

偏光アイデンティティによって

Cov(X,Y)=Var(X+Y2)Var(XY2),

分母は同じでなければなりません。


20

特別なケースはあなたに直観を与えるべきです。以下について考えてください。

Cov^(X,X)=V^(X)

後者がことに満足していますベッセル補正。i=1n(XiX¯)2n1

しかし、前者のでをに置き換えると、で、空白を埋めるのに最適なものは何だと思いますか?X ^ C O VX Y Σ N iは= 1X I - ¯ XX I - ¯ X)をYXCov^(X,Y)i=1n(XiX¯)(XiX¯)mystery denominator


1
OK。しかし、OPは「cov(X、X)とcov(X、Y)を1行のロジックに入れる理由を尋ねるかもしれません。なぜcov()でYをXに置き換えますか?cov(X、Y)別の状況ですか?」私の印象では、(非常に賛成の)答えがなければならないのに、あなたはそれを避けませんでした:
ttnphns

7

迅速で汚い答え...最初の考えてみましょう。あなたが持っていた場合観測知ら期待値とあなたが使用する分散を推定します。n E X = 0 1var(X)n E(X)=01ni=1nXi2

期待値が不明である場合、を取ることにより、観測値を既知の期待値を持つ観測値に変換できます。分母が式が得られますが、は独立していないため、これを考慮する必要があります。最後に、通常の式が見つかります。n 1 A i = X iX 1 i = 2 n n 1 A inn1Ai=XiX1i=2,,nn1Ai

共分散については、同じ考え方を使用できます。の期待値がだった場合、式にがあります。を他のすべての観測値から引くと、既知の期待値での観測値が得られ、式のが得られます。アカウント。0 0 1(X,Y)(0,0)X1Y1n111n(X1,Y1)n11n1

PSそれを行うためのクリーンな方法は、正規直交基底、つまりベクトルなど N-1、C1...C N - 1 R nは(1,,1)n1c1,,cn1Rn

  • ijcij2=1すべてのに対して、i
  • ijcij=0すべてのに対して、i
  • i 1i 2jci1jci2j=0すべての。i1i2

次に、個の変数およびます。独立しており、値が期待していると、元の変数と同じ分散/共分散を有します。A I = Σ J C 、I 、J X J B I = Σ J C 、I 、J、Y jのA IB I0 0 n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

すべてのポイントは、未知の期待を取り除きたい場合、1つの(そして1つだけの)観測を落とすことです。これは両方のケースで同じように機能します。


6

以下は、分母をもつp変量標本共分散推定量が共分散行列の不偏推定量であることの証明です。1n1

x=(x1,...,xp)

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

表示するには:E(S)=n1nΣ

証明:S=1nxixix¯x¯

次:

(1)E(xixi)=Σ+μμ

(2)E(x¯x¯)=1nΣ+μμ

したがって、E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

したがって、最後の分母持つは不偏です。非対角要素は、個々のサンプル共分散です。1Su=nn1S Su1n1Su

追加のコメント:

  1. n個のドローは独立しています。これは、サンプル平均の共分散を計算するために(2)で使用されます。

  2. ステップ(1)および(2)は、という事実を使用しますCov(x)=E[xx]μμ

  3. ステップ(2)は、という事実を使用しCov(x¯)=1nΣ


ステップ2の難しさ!:)
エルビス

@エルビスそれは厄介です。ルールCov(X + Y、Z)= Cov(X、Z)+ Cov(Y、Z)を適用し、異なる描画が独立していることを認識する必要があります。そして、それは基本的に共分散n回を合計し、1 /n²ことによってそれを縮小だ
statchrist

4

「n-2」ではなく「n-1」を使用して直感を構築する方法の1つは、共分散を計算するために、XとYの両方を無効にする必要はないが、2つのうちのどちらか、


これがどの分母を使用するかという問題にどのように関係しているかについて詳しく説明していただけますか?証拠の代数関係は、平均和が0の場合の残差がゼロであるという事実に由来しますが、それ以外の場合、どの分母が関連するかについては言及していません。
whuber

5
OPと同じ質問があったので、ここに来ました。この答えは、上記の@whuberが指摘したポイントの核心に到達すると思います:経験則ではdf〜= n-(推定されるパラメーター)は「曖昧で、不正確で、潜在的に誤解を招く」可能性があるということです これは、2つのパラメーター(xbarとybar)を推定する必要があるように見えますが、実際には1つ(xbarまたはybar)のみを推定するという事実を指摘しています。dfは両方のケースで同じである必要があるため、2つのうち小さい方にする必要があります。それがここでの意図だと思います。
mpettis

1

1)開始します。df=2n

2)サンプル共分散は。2失います。1、から1をもたらす。D F ˉ X ˉ Yの D F = 2 N - 1 Σi=1n(XiX¯)(YiY¯)dfX¯Y¯df=2(n1)

3)ただし、は、各製品から1つずつ、個別の用語のみが含まれます。2つの数値を乗算すると、個別の数値から独立した情報が消えます。nはΣi=1n(XiX¯)(YiY¯)n

ささいな例として、

24=124=212=38=46=64=83=122=241

また、ように無理数と分数を含まないため、2つの数値シリーズを乗算して積を調べると、元の情報の半分、つまり、1つの数値へのペアワイズグループ化(乗算)が実行される前にそれらの2つの数値が失われていたため、1つの数値シリーズから。 df=n124=2626df=n1

言い換えれば、一般性を失うことなく、次のように書くことができます。

Z I ˉ Z(XiX¯)(YiY¯)=ziz¯一部のおよび、ziz¯

すなわち、、および、。明らかに持つから、共分散の式は次のようになります。ˉ Z = ˉ X ˉ Yの Z軸のD F = N - 1zi=XiYiX¯YiXiY¯z¯=X¯Y¯zdf=n1

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯)

したがって、質問に対する答えは、がグループ化によって半分になるということです。df


@whuber一体どうして、同じものを2回投稿し、1回削除したのですか?何が得られますか?それらの1つを取り除くことができますか?将来の参照のために、そのような重複を完全に削除する方法はありますか?私はいくつかぶらぶらしていますが、それは迷惑です。
カール

私の知る限り、あなたはあなたの答えを重複からここに再投稿しました。(他の誰もあなたの名前で回答を投稿する権限はありません。)システムは、複数のスレッドで同一の回答を投稿することを強く推奨しません。これは、ソーススレッドからターゲットスレッドにすべてのコメントと回答を移動する手順です。次に、ターゲットスレッドで重複した投稿を削除しました。完全に削除されたままになりますが、あなただけでなく十分に評判の高い人々にも表示されます。
whuber

@whuber絶えず調べているにもかかわらず、マージで何が起こるのか、マージが行われているのか、多くのルールが何なのかを知りませんでした。学習するのに時間がかかります。辛抱強く、ところで、stats.stackexchange.com / questions / 251700 / ...をオフにすることを検討してくださいHold
カール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.