最小二乗推定量の分散における項の直感的な説明


18

がフルランクの場合、逆数が存在し、最小二乗推定値を取得します。 およびX T X β = X T X - 1 X Y ヴァーβ= σ 2X T X - 1XXTX

β^=(XTX)1XY
Var(β^)=σ2(XTX)1

分散式でをどのように直感的に説明できますか?派生のテクニックは私にとって明らかです。(XTX)1


3
分散共分散行列について述べた公式(がOLSによって推定されると仮定)が正しいのは、ガウス-マルコフの定理の条件が満たされ、特に、誤差項の分散共分散行列がで与えられる場合にのみ、ここでは単位行列で、は(および)の行。指定した式は、非球面エラーのより一般的な場合には正しくありません β σ2INI、N、N×NNXYβ^β^σ2InInn×nnXY
ミコ

回答:


13

定数項のない単純な回帰を考えてみましょう。単一のリグレッサーはそのサンプル平均を中心にしています。次いで、 XXは(n回)そのサンプル分散、および(XX)1のrecirpocal。したがって、リグレッサーの分散=変動性が高いほど、係数推定器の分散は低くなります。説明変数の変動性が大きいほど、未知の係数をより正確に推定できます。

どうして?リグレッサーが変化するほど、含まれる情報が多くなります。回帰変数が多い場合、これはそれらの分散共分散行列の逆数に一般化され、回帰変数の共変動性も考慮されます。XXが対角である極端な場合、各推定係数の精度は、関連するリグレッサーの分散/変動性のみに依存します(誤差項の分散が与えられた場合)。


この議論を、分散共分散行列の逆行列が偏相関をもたらすという事実に関連付けることができますか?
ハイゼンベルク

5

表示の簡単な方法σ2(XTX)1の行列のようになる(多変量)アナログσ2i=1n(XiX¯)2、単純なOLS回帰における傾き係数の分散です。一つでも得ることができ原点を回帰を実行することによって、すなわち、モデルに切片をommittingことによって、その分散のために。σ2i=1nXi2

これらの式のいずれかから、予測変数のより大きな変動性は一般にその係数のより正確な推定につながることがわかるかもしれません。これは、実験の設計でよく利用されるアイデアです。(非ランダム)予測子の値を選択することにより、の行列式を可能な限り大きくしようとします。行列式は変動性の尺度です。(XTX)


2

ガウス確率変数の線形変換は役立ちますか?ルールを使用して、その場合、は、A X + B NA μ + B A T Σ A xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

ことが、仮定基礎となるモデルであり、ε N0 σ 2Y=Xβ+ϵϵN(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

だからであるだけで、複雑なスケーリング行列その変換の分布Y(XTX)1XTY

お役に立てば幸いです。


OLS推定量とその分散の導出には、誤差項の正規性は必要ありません。必要だということ全ては、E ε ε T= σ 2 I N。(もちろん、OLSがCramer-Raoの下限を達成することを示すために正規性必要ですが、それはOPの投稿の目的でありませんか?)E(ε)=0E(εεT)=σ2In
ミコ

2

Varの基礎となる直感を開発するために、別のアプローチを取ります。。重回帰モデルの直観を開発するとき、二変量線形回帰モデル、つまりを検討すると役立ちますYI=α+βXI+εIVarβ^=σ2(XX)1α + β X Iは、頻繁に決定的な貢献と呼ばれる Y I、及び ε iは確率的貢献と呼ばれます。サンプル手段からの偏差で表すˉ Xˉ Y、このモデルは、のように書くこともできるY I - ˉ Y= β X I - ˉ X+ ε

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

ヘルプへの直感を開発、我々は、最も単純なガウス・マルコフの仮定が満たされることを前提としています:非確率、Σ nは私が= 1X I - ˉ X2 > 0すべてのためのn、およびε IIID 0 σ 2すべてに対してiが= 1 ... N。すでによく知っているように、これらの条件は、Varxii=1n(xix¯)2>0nεiiid(0,σ2)i=1,,nここで Var

Varβ^=1nσ2(Varx)1,
サンプル分散であり、X。すなわち、この式は、三の主張を行います「の分散 βは、サンプルサイズに反比例し、N、それの分散に正比例する ε、それはの分散に反比例する X。」Varxxβ^nεx

なぜ、サンプルサイズを倍にする必要がありparibusをceterisの分散原因、βは半分にカットをしますか?この結果は、εに適用されるiidの仮定に密接にリンクされています。個々のエラーはiidであると想定されるため、各観測値は事前に同等に有益であると見なされる必要があります。そして、倍加観測の数はとの間の(想定線形)関係を記述するパラメータに関する情報の量のxおよびyは。情報が2倍あれば、パラメーターに関する不確実性が半分になります。同様に、なぜ倍増するのかについて直感を開発することは簡単ですβ^εxyまたの分散倍 βをσ2β^

レッツ・ターン、そして、の分散という主張のための直感を開発についてであるあなたの主な質問へのβがある反比例の分散にX。概念を形式化するために、これからModel 1 とModel 2 と呼ばれる2つの別々の二変量線形回帰モデルを考えてみましょう。我々は、両方のモデルは、ガウス-マルコフ定理の最も単純な形式の仮定を満たすと仮定し、モデルはまったく同じ値を共有することをαをβN、及びσ 2。これらの仮定の下では、Eβ^x(1)(2)αβnσ2; 言葉では、両方の推定量は公平です。決定的に、我々はまた、一方ことを仮定します ˉ X1 = ˉ X2 = ˉ XヴァーEβ^(1)=Eβ^(2)=βx¯(1)=x¯(2)=x¯。一般性を失うことなく、 VarVarx(1)Varx(2)Varx(1)>Varx(2). Which estimator of β^ will have the smaller variance? Put differently, will β^(1) or β^(2) be closer, on average, to β? From the earlier discussion, we have Varβ^(k)=1nσ2/Varx(k)) for k=1,2. Because Varx(1)>Varx(2) by assumption, it follows that Varβ^(1)<Varβ^(2). What, then, is the intuition behind this result?

Because by assumption Varx(1)>Varx(2), on average each xi(1) will be farther away from x¯ than is the case, on average, for xi(2). Let us denote the expected average absolute difference between xi and x¯ by dx. The assumption that Varx(1)>Varx(2) implies that dx(1)>dx(2). The bivariate linear regression model, expressed in deviations from means, states that dy=βdx(1) for Model (1) and dy=βdx(2) for Model (2). If β0, this means that the deterministic component of Model (1), βdx(1), has a greater influence on dy than does the deterministic component of Model (2), βdx(2). Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β. Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2), it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2). The converse of greater precision is a lower variance of the point estimate of β.

It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)


1

Say we have n observations (or sample size) and p parameters.

The covariance matrix Var(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be σ2=0. Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of XTX will be higher, as the number of columns of XT is n and the number of rows of X is n, and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)1 will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates βi^ of the parameters if we increase the sample size n.

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.


1

This builds on @Alecos Papadopuolos' answer.

Recall that the result of a least-squares regression doesn't depend on the units of measurement of your variables. Suppose your X-variable is a length measurement, given in inches. Then rescaling X, say by multiplying by 2.54 to change the unit to centimeters, doesn't materially affect things. If you refit the model, the new regression estimate will be the old estimate divided by 2.54.

The XX matrix is the variance of X, and hence reflects the scale of measurement of X. If you change the scale, you have to reflect this in your estimate of β, and this is done by multiplying by the inverse of XX.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.