残差は誤差項の推定です
この質問に対する短い答えは比較的単純です。回帰モデルの仮定はエラー項の動作に関する仮定であり、残差はエラー項の推定です。 事実、観測された残差の動作を調べると、誤差項に関する仮定が妥当であるかどうかがわかります。
この一般的な推論の行をさらに詳しく理解するには、標準回帰モデルの残差の動作を詳細に調べると役立ちます。独立したホモスケダスティック正規誤差項を使用した標準の多重線形回帰では、残差ベクトルの分布がわかっているため、回帰モデルで根本的な分布仮定をテストできます。基本的な考え方は、回帰の仮定の下で残差ベクトルの分布を把握し、残差値がこの理論上の分布と一致するかどうかを確認することです。理論的な残差分布からの逸脱は、エラー項の根本的な想定分布が何らかの点で間違っていることを示しています。
ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(この式は、分散推定器が検討中の変数を除外する、外部でスチューデント化された残差です。値は、ハットマトリックスの対角値であるレバレッジ値です。スチューデント化された残差は、独立ですが、が大きい場合、それらは独立に近くなります。これは、周辺分布は単純な既知の分布ですが、結合分布は複雑であることを意味します。)ここで、極限が存在する場合、係数推定量が真の回帰係数の一貫した推定量であり、残差が真のエラー条件。li=hi,inlimn→∞(xTx)/n=Δ
基本的に、これは、スチューデント化された残差をT分布と比較することにより、誤差項の根本的な分布の仮定をテストすることを意味します。エラー分布の基本的なプロパティ(線形性、ホモスケダシティ、無相関エラー、正規性)のそれぞれは、スチューデント化された残差の分布の類似したプロパティを使用してテストできます。モデルが正しく指定されている場合、が大きい、残差は真の誤差項に近く、類似した分布形式になります。n
回帰モデルから説明変数を省略すると、係数推定器の変数バイアスが省略され、残差分布に影響します。残差ベクトルの平均と分散の両方が、省略された変数の影響を受けます。回帰で省略された項が場合、残差ベクトルは。省略された行列のデータベクトルがIID法線ベクトルであり、誤差項に依存しない場合、Zδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) したがって、残差分布は次のようになります。
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
モデルに既に切片項がある場合(つまり、単位ベクトルが計画行列にある場合)、1(I−h)1=0これは、残差の標準分布形式が保持されることを意味します。モデルに切片項がない場合、省略された変数は残差の非ゼロ平均を与える可能性があります。または、省略された変数がIID正規でない場合、標準残差分布から他の偏差が生じる可能性があります。この後者の場合、残差テストは、省略された変数の存在に起因するものを検出する可能性はほとんどありません。通常、理論上の残差分布からの逸脱が変数の省略の結果として発生したのか、それとも単に含まれている変数との不適切な関係が原因で発生したのかを判断することはできません(おそらくこれらはいずれにしても同じことです)。