回答:
これについて考える最も簡単な方法は、生の残差()が対応する外乱の推定値()であることです。ただし、さらに複雑さがいくつかあります。たとえば、標準のOLSモデルでは、誤差/外乱は独立していると想定していますが、残差はすべて独立しているわけではありません。一般に、平均モデルの推定に自由度を使用しており、残差は合計がになるように制約されているため、独立できるのは残差のみですε J = EのJ N - P - 1 、P - 1 0。さらに、生の残差の標準偏差は実際には一定ではありません。一般に、回帰直線は、平均してレバレッジの高いポイントに近づくように調整されます。その結果、それらのポイントの残差の標準偏差は、レバレッジの低いポイントの標準偏差よりも小さくなります。(これについての詳細は、ここで回答を読むと役立つ場合があります:plot.lm()の解釈、および/またはここ:線形回帰でバイナリ/二分独立予測子の残差分析を実行する方法?)
関係と。 ε
ここで、ハット行列であるはです。
つまり、はすべてのエラーの線形結合ですが、通常、重みのほとんどは番目のものに該当します。
cars
R のデータセットを使用した例を次に示します。紫色でマークされた点を考えます。
それをポイントと呼びましょう。残差、。ここで、他のエラーのは-0.02の範囲にあります。
これを次のように書き直すことができます。
より一般的に
ここで、は番目の対角要素です。同様に、上記のはです。 i H w j h i j
エラーがiid場合、この例では、他のエラーの加重和は、その残差に対する番目の観測値のエラーの影響の約1/7に対応する標準偏差になります。。I
つまり、行儀の良い回帰では、残差はほとんど、観測できないエラー項の適度にノイズの多い推定のように扱うことができます。中心から離れた点を考えると、物事はいくらかうまく機能しません(残差はエラーへの重み付けが少なくなり、他のエラーの重みは均等になります)。
多くのパラメーターがある場合、またはがあまりうまく分布していない場合、残差はエラーのように少なくなります。いくつかの例を試してみてください。