線形回帰で、なぜ生の最小二乗残差が不均一になるのですか?


7

異分散性の検出に関する回帰コースに関する私のコースノートでは、次の引用があります。

「最小二乗残差は、等分散性の場合でも不均等な分散を持っているため、標準化された残差を使用することが望ましいです。」

私の直感は、LS回帰直線は必ずデータクラウドの中心を通るので、尾よりも共変量空間の中央の点により適しているため、極端な分散が大きくなることを教えてくれます。

これにもかかわらず、これはそれが必要であるとは思われません。それと同時に、標準化された、またはスチューデント化された残差の等分散性を考慮し、生の残差を考慮しないのはなぜですか。


3
残差の場合、極値では分散が小さくなります。これは、極端な観測値ほど回帰関数に影響を与えるためです。(「より極端な」=マハラノビスの距離で測定したx空間の平均からさらに離れている)[特定の式はすぐに導出されるか、サイトの他の回答で見つかる可能性があります。]
Glen_b -Reinstate Monica

答えはここで見つけることができます: stats.stackexchange.com/questions/212656/...
HalvorsenのはKjetil B

1
ここに、重回帰の場合の残差の分散の派生といくつかの追加の説明があります
Glen_b -Reinstate Monica

回答:


4

一定の分散持つ通常の線形モデルを想定しています。レバレッジとレバレッジポイントの効果の表記(およびいくつかの結果)を使用します。行列形式の線形モデルは 。は iidエラー項のベクトルです。次に、ハット行列はであり、その対角項はてこです。残差の分散がことを示すことができます(思い出してください。) σ2

Y=Xβ+ϵ
ϵnH=X(XTX)1XT hiiei=yiyi^σ2(1hii)0<hii<1

したがって、このモデルでは、定数分散残差を取得するために、定義される標準化された残差分散は一定です。そのため、残差分析の多くの用途では、たとえば一定の分散の仮定をチェックする場合などに、この標準化された残差を使用します。1hiiri=yiy^i1hii

EDIT

コメントでOPは書きます:

私の知る限り、正式な仮定は「標準化された残差の同等分散性」ではなく、残差自体だけです。

これにより、エラー残差が混同されます。エラーは、回帰方程式の観測されていないですが、残差は観測値とモデル予測の間の観測された差です。Homoskedastcityは、残差が一定の分散を持っているのではなく、すべての誤差が同じ分散を持っていることを意味します。残差を使用して定数分散の仮定をテスト/評価する場合は、(モデルの下で)定数分散を持つバージョンの残差を使用することをお勧めします。ϵiyi=β0+iβixi+ϵi


私の質問の2番目の部分に関して、標準化された残差を使用する方が便利な理由は理解できますが、私の質問はより抽象的だと思います:なぜ自然の不等分散性がガウスマルコフ条件と標準誤差の推定値自体を妨げないのか。私の知る限り、正式な仮定は「標準化された残差の同等分散性」ではなく、残差のみです。「指で太陽を覆う」だけではないですか?
Kuku

1

3つの値があるとします:x1,0,+1.

対応する従属変数は、ランダム性がある場所です。Y1,Y2,Y3

今絵を描きます。を上下に動かすと、フィットした線が上下に動く理由がわかります。(ちょうどすることでと同じくらい移動します。)しかし、あなたが移動すると何が起こるアップまたはダウン?フィットしたラインは上下に移動するだけではありません。傾斜も大きくなったり小さくなったりします。または、を上下に移動すると、それぞれ勾配が小さくなったり大きくなったりします。ラインは、データポイントの時に近いデータポイントに滞在するより傾向があるように、 -値が平均から遠い、それは平均に近いときより-値 -値を。したがって、値が平均値から離れている場合、観測された残差の分散は小さくなります。Y21/3Y2Y3Y1xxxxx場合より-value -値が近い平均値である -value。xx

適合値は、 したがって、残差は これから、残差の分散を計算できます。

(Y^1,Y^2,Y^3)=(23Y1+13Y2,13(Y1+Y2+Y3),13Y2+23Y3).
(Y1,Y2,Y3)(Y^1,Y^2,Y^3)=(13Y113Y2,23Y1+23Y223Y3,13Y2+13Y3).

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.