線形回帰で係数の分散共分散行列を導き出す方法


36

私は線形回帰に関する本を読んでいて、分散共分散行列を理解するのに苦労していますb

ここに画像の説明を入力してください

対角線の項目は簡単ですが、非対角線の項目はもう少し難しいです。私が困惑しているのは、

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

ただし、ここにはと痕跡はありません。β0β1



2
本はどれですか?
コンスタンティノス

。Neterら、アプライド・線形回帰モデルは、1983年には、ページ216あなたは応用線形統計モデルで同じ材料を見つけることができ、第5版、ページ207
akavalar

回答:


53

これは実際には、回帰の基本的な理解に挑戦するクールな質問です。

最初に表記法に関する最初の混乱を取り除きます。回帰を見ています:

y=b0+b1x+u^

ここでb0及びb1真の推定量であるβ0及びβ1、およびUは回帰の残差です。したがって、基礎となる真の非観測回帰は次のように示されることに注意してください。u^

y=β0+β1x+u

期待とE[u]=0と分散E[u2]=σ2。いくつかの書籍が示すbのようにβを、我々はここで、この規則を適応させます。我々はまた、行列表記、使用するbはの推定保持する2×1ベクトルであり、β =を[ β 0β 1 ] '、すなわち、B = [ B 0B 1 ] 'β^β=[β0,β1]b=[b0,b1]。(わかりやすくするために、以下の計算ではXを固定として扱います。)

さてあなたの質問に。共分散の式は確かに正しい、つまり:

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

私はあなたが私たちが真の未観測の係数が持って来る方法を知りたいと思うβ0,β1この式では?数式を展開してさらに一歩進んだ場合、実際にキャンセルされます。これを確認するには、推定量の母分散が次の式で与えられることに注意してください。

Var(β^)=σ2(XX)1

この行列は、対角要素の分散と非対角要素の共分散を保持します。

上記の式に到達するために、マトリックス表記を使用してクレームを一般化します。私たちしたがって表す分散をさせVar[]を有すると期待値E[]

Var[b]=E[b2]E[b]E[b]

基本的に、マトリックス表記を使用した一般的な分散式があります。この式は、推定量b=(XX)1Xyの標準式に代入すると解決します。また、E[b]=βが不偏推定量であると仮定します。したがって、以下を取得します。

E[((XX)1Xy)2]β22×2

我々は右手側にあることに注意してくださいβ2 2x2の行列、すなわち- bbが、あなたは、この時点ですでにまもなくこの用語で何が起こるかを推測します。

上記の真の基になるデータ生成プロセスの式でyを置き換えると、次のようになります。

E[((XX)1Xy)2]β2=E[((XX)1X(Xβ+u))2]β2=E[((XX)1XX=Iβ+(XX)1Xu)2]β2=E[(β+(XX)1Xu)2]β2=β2+E[(XX)1Xu)2]β2

since E[u]=0. Furthermore, the quadratic β2 term cancels out as anticipated.

Thus we have:

Var[b]=((XX)1X)2E[u2]

E[u2]=σ2 and ((XX)1X)2=(XX)1XX(XX)1=(XX)1 since XX is a K×K symetric matrix and thus the same as its transpose. Finally we arrive at

Var[b]=σ2(XX)1

Now that we got rid of all β terms. Intuitively, the variance of the estimator is independent of the value of true underlying coefficient, as this is not a random variable per se. The result is valid for all individual elements in the variance covariance matrix as shown in the book thus also valid for the off diagonal elements as well with β0β1 to cancel out respectively. The only problem was that you had applied the general formula for the variance which does not reflect this cancellation at first.

Ultimately, the variance of the coefficients reduces to σ2(XX)1 and independent of β. But what does this mean? (I believe you asked also for a more general understanding of the general covariance matrix)

Look at the formula in the book. It simply asserts that the variance of the estimator increases for when the true underlying error term is more noisy (σ2 increases), but decreases for when the spread of X increases. Because having more observations spread around the true value, lets you in general build an estimator that is more accurate and thus closer to the true β. On the other hand, the covariance terms on the off-diagonal become practically relevant in hypothesis testing of joint hypotheses such as b0=b1=0. Other than that they are a bit of a fudge, really. Hope this clarifies all questions.


and when keep the spread constant and decrease the x's, the standard error of the intercept becomes smaller, which makes sense.
Theta30

I don't follow the expansion of the square. Why is not simplified to ((XX)1X)2=((XX)1X)((XX)1X)=X2?
David

2

In your case we have

XX=[nXiXiXi2]

Invert this matrix and you will get the desired result.


1

It appears that β0β1 are the predicted values (expected values). They make the switch between E(b0)=β0 and E(b1)=β1.


β0 and β1 are generally unknown, what can they switch to?
qed

I think I understand the confusion, and I think they perhaps should have written β0 rather than β0. Here's another post that goes through the calculation: link
Drew75

2
@qed: to sample estimates of the unknown quantities.
Glen_b -Reinstate Monica
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.