なぜ残差を使用して回帰のエラーに関する仮定をテストするのですか?


10

我々はモデルがあるとYi=β0+β1Xi1+β2Xi2++βkXik+ϵi

回帰には、誤差ϵiが平均ゼロと一定の分散で正規分布する必要があるなど、いくつかの仮定があります。私は、残差の正規性テストに通常のQQプロットを使用して、これらの仮定を確認するために教えられてきたei=YiY^iとフィットプロット対残差は残差が一定の分散をゼロ付近変化することを確認すること。

ただし、これらのテストはすべて誤差ではなく残差に対して行われます。

私が理解していることから、エラーは各観測値の「真の」平均値からの偏差として定義されています。そこで、我々は書くことができϵi=YiE[Yi]。これらのエラーは、弊社では確認できません。*

私の質問はこれです:残差はエラーを模倣するのにどれほど良い仕事ですか?

残差で仮定が満たされているように見える場合、これは誤差でも仮定が満たされていることを意味しますか?モデルをテストデータセットに適合させ、そこから残差を取得するなど、他の(より良い)仮定をテストする方法はありますか?


*さらに、モデルを正しく指定する必要はありませか?これは、応答が本当に予測因子との関係を持っていること、であるX1,X2,モデルによって指定された方法でなど。

我々はいくつかの予測子含まれていない場合(例えば、、次に期待値)E [ Y I ] = β 0 + β 1 X I 1 + β 2 X I 2 + + β K X I kは希望真の平均値でさえありませんし、間違ったモデルでのさらなる分析は無意味に思えます。Xk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXik

モデルが正しいかどうかをどのように確認しますか?

回答:


9

残差は誤差項の推定です

この質問に対する短い答えは比較的単純です。回帰モデルの仮定はエラー項の動作に関する仮定であり、残差はエラー項の推定です。 事実、観測された残差の動作を調べると、誤差項に関する仮定が妥当であるかどうかがわかります。

この一般的な推論の行をさらに詳しく理解するには、標準回帰モデルの残差の動作を詳細に調べると役立ちます。独立したホモスケダスティック正規誤差項を使用した標準の多重線形回帰では、残差ベクトルの分布がわかっているため、回帰モデルで根本的な分布仮定をテストできます。基本的な考え方は、回帰の仮定の下で残差ベクトルの分布を把握し、残差値がこの理論上の分布と一致するかどうかを確認することです。理論的な残差分布からの逸脱は、エラー項の根本的な想定分布が何らかの点で間違っていることを示しています。

ϵiIID N(0,σ2)

r=(Ih)ϵN(0,σ2(Ih)),

h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(この式は、分散推定器が検討中の変数を除外する、外部でスチューデント化された残差です。値は、ハットマトリックスの対角値であるレバレッジ値です。スチューデント化された残差は、独立ですが、が大きい場合、それらは独立に近くなります。これは、周辺分布は単純な既知の分布ですが、結合分布は複雑であることを意味します。)ここで、極限が存在する場合、係数推定量が真の回帰係数の一貫した推定量であり、残差が真のエラー条件。li=hi,inlimn(xTx)/n=Δ

基本的に、これは、スチューデント化された残差をT分布と比較することにより、誤差項の根本的な分布の仮定をテストすることを意味します。エラー分布の基本的なプロパティ(線形性、ホモスケダシティ、無相関エラー、正規性)のそれぞれは、スチューデント化された残差の分布の類似したプロパティを使用してテストできます。モデルが正しく指定されている場合、が大きい、残差は真の誤差項に近く、類似した分布形式になります。n

回帰モデルから説明変数を省略すると、係数推定器の変数バイアス省略され、残差分布に影響します。残差ベクトルの平均と分散の両方が、省略された変数の影響を受けます。回帰で省略された項が場合、残差ベクトルは。省略された行列のデータベクトルがIID法線ベクトルであり、誤差項に依存しない場合、Zδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) したがって、残差分布は次のようになります。

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

モデルに既に切片項がある場合(つまり、単位ベクトルが計画行列にある場合)、1(Ih)1=0これは、残差の標準分布形式が保持されることを意味します。モデルに切片項がない場合、省略された変数は残差の非ゼロ平均を与える可能性があります。または、省略された変数がIID正規でない場合、標準残差分布から他の偏差が生じる可能性があります。この後者の場合、残差テストは、省略された変数の存在に起因するものを検出する可能性はほとんどありません。通常、理論上の残差分布からの逸脱が変数の省略の結果として発生したのか、それとも単に含まれている変数との不適切な関係が原因で発生したのかを判断することはできません(おそらくこれらはいずれにしても同じことです)。


1
包括的な対応ありがとうございます。どこにあるか聞いてもいいですか?それは私には思われるr=(Ih)ϵr=YY^=(Ih)Y
チェンマイ

1
以降あなたが持つよう。hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
ベン-モニカを復活させる

-4

通常、残差とエラーという用語は同じことを意味します。モデルに予測子がない場合、E(Y)は確かにYの平均です。予測子(モデルと同様)では、E(Y)は各Xから予測されたYの値です。したがって、残差は観測された各Yを予測しました。


3
「通常、残差とエラーという用語は同じ意味です。」これは真実ではないと思います。私が理解している限り、残差は観測値と予測値の差を測定し、誤差は観測値と真の平均値の差を測定します。
2018

1
厳密に言えば、エラーと残差は同義語ではありません。前者は確率変数であり、後者は実現です。
Richard Hardy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.