単純な線形回帰では、残差の分散の式はどこから来ますか?


21

私が使用しているテキストによると、残差の分散の式は次のようになります。ith

σ2(11n(xix¯)2Sxx)

残差は観測値と適合値の差であるため、これは信じがたいことです。差の分散を計算する場合、少なくとも、結果の式にいくつかの「プラス」が期待されます。派生を理解する上で助けていただければ幸いです。ithithith


テキスト内の一部の「」記号が「」記号として誤ってレンダリングされている(または誤読されている)可能性はありますか?+
whuber

私はこれを考えていましたが、テキストで2回(2つの異なる章)起こったので、ありそうもないと思いました。もちろん、式の導出が役立ちます!:)
エリック14

負の値は、観測値とその適合値の間の正の相関の結果であり、差の分散が減少します。
Glen_b-モニカの復活14

@Glen数式が理にかなっていることが判明した理由と、以下のマトリックスの導出に感謝します。
エリック14

回答:


27

分散に関連する「プラス」記号についての直観(独立したランダム変数の差の分散を計算するときでも、それらの分散を追加するという事実から)は正しいが致命的に不完全です:関与するランダム変数が独立していない場合、共分散も含まれます-共分散は負になる場合があります。ある表現が存在し、ほとんどそれは(私にして)OPでも「必要がある」と考えられていた問題の表現のように、それがあるの分散予測誤差、それが表す、、ここで:、Y 0 = β 0 + β 1 X 0 + U 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

予測誤差の分散と推定誤差の分散(すなわち、残差)の重大な違いは、値が使用されていないため、予測観測の誤差項が推定器相関していないことです。推定器を構築し、サンプル外の値である推定値を計算します。y0

両方の代数は(代わりにを使用して)点までまったく同じように進みますが、その後、発散します。具体的には:i0i

単純な線形回帰、、推定量の分散はまだヴァーU 、I= σ 2 β = β 0β 1 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

我々は持っています

XX=[nxixixi2]

など

(XX)1=[xi2xixin][nxi2(xi)2]1

我々は持っています

[nxi2(xi)2]=[nxi2n2x¯2]=n[xi2nx¯2]=n(xi2x¯2)nSxx

そう

(XX)1=[(1/n)xi2x¯x¯1](1/Sxx)

つまり

Var(β^0)=σ2(1nxi2) (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)

Var(β^1)=σ2(1/Sxx)

Cov(β^0,β^1)=σ2(x¯/Sxx)

番目の残差は次のように定義されi

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

実際の係数は定数として扱われ、リグレッサは固定(または条件付き)であり、誤差項との共分散はゼロです推定器は従属変数と従属変数を含むため、推定器は誤差項と相関していますエラー用語が含まれています。だから私たちは

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

入手するには少し梱包してください

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

大括弧内の用語は、唯一の変化は、代わりにということで、予測誤差の分散と全く同じ構造を有している私たちが持っています(および分散がそのことになりますではない)。最後に、共分散項は、予測誤差はゼロであるので、、したがってされていないため、推定には含まが、ゼロでない推定誤差のためひいては試料の一部であるとは、それが中に含まれています推定量。我々は持っています、X 0 、E 0 U、I 、Y 0 、U 0xix0e0u^iy0u0、U Iyiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

計算方法からの最後の置換。続くβ^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

これを残差の分散の式に挿入すると、次が得られます。

Var(u^i)=σ2(11n(xix¯)2Sxx)

そのため、OPが使用しているテキストを嫌います。

(私はいくつかの代数操作をスキップしました、OLS代数が最近ますます教えられているのも不思議ではありません...)

いくつかの直感

したがって、予測の際に「対抗」する(変動が大きい)ものが、推定の際に「対合」する(変動が小さい)ように見えることがわかります。これは、優れた適合がモデルの予測能力にとって悪い兆候である理由を熟考するための良い出発点です(しかし、これは直感に反するかもしれませんが...)。リグレッサーの期待値を推定
しているという事実は、分散を減少させます。どうして?というのは、本質的に期待値を推定するため、を推定することにより、サンプルに存在するエラー変動性に「目を閉じる」からです。さらに、回帰変数の標本平均からの回帰変数の観測値の偏差が大きいほど1/nこの観測に関連する残差の分散は...観測から逸脱するほど、その残差は小さくなります... 未知のエラーの「場所をとる」ことにより、私たちのために働くのは回帰変数の変動です。変動性。

しかし、それは推定には適しています。予測については、同じことが逆になります。今、ばらつきを不完全に考慮しないことで(予測したいので)、サンプルから得られた不完全な推定量はそれらの弱点を示しています:サンプル平均、真の期待値はわかりません-分散が増加します。他の観測から計算されたサンプル平均から遠く離れたがあります-あまりにも悪いです、予測されたは迷う傾向があるので、予測誤差の分散は別のブーストを取得します...科学言語「予測誤差の分散を減らすという意味での最適な予測子は、、X 0 、Y 0y0x0 y^0予測中の変数の平均向けた収縮」。従属変数の変動性を再現しようとはせず、単に「平均に近い」状態を維持しようとします。


非常に明確な答えをありがとう!私の「直感」が正しかったことを嬉しく思います。
エリック14

アレコス、私はこれが正しいとは思わない。
-Glen_b-モニカの復活14

@Alecosの間違いは、パラメーターの推定値をエラー項と無相関にすることです。この部分:はありません。Var(u^i)=Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)
Glen_b-モニカの復活14

@Eric誤解を招いたことをおaびします。私は両方の式についていくつかの直観を提供しようとしました。
アレコスパパドプロ14

+1なぜこのために重回帰のケースを行ったのかを見ることができます...単純な回帰のケースを行う余分な努力に感謝します。
-Glen_b-モニカの復活2014

19

あまりにも抽象的で、直感的な説明が不足しているので、やや簡潔な答えで申し訳ありませんが、後で戻って詳細を追加してみます。少なくとも短いです。

所与、H=X(XTX)1XT

Var(yy^)=Var((IH)y)=(IH)Var(y)(IH)T=σ2(IH)2=σ2(IH)

したがって

Var(yiy^i)=σ2(1hii)

単純な線形回帰の場合...これはあなたの質問に答えを与えます。

この答えも理にかなっています。はと正の相関があるため、差の分散は分散の合計よりも小さくなければなりません。y^iyi

-

編集:理由の説明あるべき等(IH)

(i)はdem等:H

H2=X(XTX)1XTX(XTX)1XT =X [(XTX)1XTX] (XTX)1XT=X(XTX)1XT=H

(ii)(IH)2=I2IHHI+H2=I2H+H=IH


1
これは単純さの点で非常に優れた派生ですが、私には明らかではない1つのステップがある理由です。とにかくあなたが答えを少し広げると、とにかくやろうとしているので、それについて少し何か言うことができますか?(IH)2=(IH)
ジェイクウェストフォール14

最後に数行を追加しました@Jake
Glen_b -Reinstateモニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.