線形回帰の誤差項に一定でない分散があるとどうなりますか?


9

線形回帰の仮定の1つは、誤差項に一定の分散があり、モデルに関連付けられている信頼区間と仮説検定がこの仮定に依存していることです。エラー項に一定の分散がない場合、正確にはどうなりますか?

回答:


15

異分散性の結果は次のとおりです。

  1. 通常の最小二乗(OLS)推定量は一貫していますが、効率的ではありません。b^=(XX)Xy

  2. 推定 whereは、推定量の共分散行列に対する一貫した推定量ではなくなりました。それは偏ったものであり、矛盾しているかもしれません。そして実際には、分散を大幅に過小評価する可能性があります。Var^(b)=(XX)1σ^2σ^2=1nkeeb^

ポイント(1)は大きな問題ではないかもしれません。とにかく、人々は通常のOLS推定器をよく使用します。ただし、ポイント(2)に対処する必要があります。何をすべきか?

異分散性の一貫した標準エラーが必要です。標準的なアプローチは、大きなサンプルの仮定、漸近的な結果に頼り、以下を使用して分散を推定することです。b

Var^(b)=1n(XXn)1S(XXn)1
ここで、はとして推定されます。SS=1nki(xiei)(xiei)

これにより、不均一性に一貫した標準誤差が得られます。それらは、Huber-White標準エラー、堅牢な標準エラー、「サンドイッチ」推定量などとも呼ばれます。基本的な標準統計パッケージには、堅牢な標準エラーのオプションがあります。これを使って!

いくつかの追加コメント(更新)

不均一分散が十分に大きい場合、通常のOLS推定は大きな実用上の問題を引き起こす可能性があります。推定値は一貫していますが、推定値全体がいくつかの高分散の観測によって駆動される、小さなサンプル問題がある場合があります。(これは@ seanv507がコメントでほのめかしているものです)。OLS推定量は、高分散の観測に最適よりも大きな重みを与えるという点で非効率的です。見積もりは非常にうるさいかもしれません。

非効率性を修正しようとする際の問題は、おそらく誤差項の共分散行列もわからないことです。そのため、GLSのようなものを使用すると、誤差項の共分散行列の推定値がガベージである場合、事態がさら​​に悪化する可能性があります。

また、上記で示したHuber-Whiteの標準誤差は、小さなサンプルでは大きな問題になる可能性があります。このトピックに関する長い文献があります。例えば。Imbens and Kolesar(2016)の「少量のサンプルにおける強力な標準誤差:いくつかの実用的なアドバイス」を参照してください。

さらなる研究の方向性:

これが自習である場合、次に検討すべき実用的なことは、クラスター化された標準誤差です。これらは、クラスター内の任意の相関を修正します。


1
マシュー-より実用的な問題はポイント(1)を明らかにすると思います。たとえば、推定量がより高い分散のある領域に「偏っている」のではないでしょうか。-これらの地域が平均から離れていてレバレッジが高い場合、これは大きな問題になります。
seanv507 2016年

3
@ seanv507の不均一分散は、OLS推定にバイアスをかけません。あなたが言っていると思うのは非効率です。高分散観測値と低分散観測値を等しく重み付けすることにより、OLS推定器は、逆分散重み付けのようなもので理論的に達成可能なものよりも高い分散を持ちます。推定フェーズで推定を使用するかどうか(つまり、を推定するため)は、だけ知っているかによって異なります。σi2bσi2
Matthew Gunn

1
マシュー、私はそれがバイアスを導入していないことを知っています(引用符でこの用語を使用したことをお詫び申し上げます:)適切な用語を考えることができませんでした)。しかし、私は実用的な影響を引き出そうとしています(そしてOPがそれらを理解したいと思っていることを示唆しています)-いつ/なぜポイント(1)が大きな問題ではないのか。その効果は、が高分散領域に依存することが、直感的に期待/望んでいるよりも高いということに同意しませんか?分散領域)。b
seanv507

@ seanv507自由に回答を追加してください!
Matthew Gunn

不均一性に強い標準誤差(2010年の論文「エタンピアへの道のタンタルス」White-washingと呼ばれているエドリーマー)を使用する代わりに、以下の方法で不均一性の点推定(分散推定と共に)を修正することもできます。 WLS。これは回答で言及する価値があるかもしれません。
Richard Hardy

3

まあ短い答えは基本的にあなたのモデルが間違っているということです

  • 通常の最小二乗がB est L inear U nbiased E stimatorになるために、誤差項の一定の分散が仮定されます。
  • ガウスマルコフの仮定-満たされている場合-は、係数の最小二乗推定量が不偏であり、すべての不偏線形推定量の中で最小の分散を持つことを保証します。β

したがって、分散共分散行列の推定に伴う不等分散性の問題が発生すると、係数の誤った標準誤差が発生し、その結果、誤ったt統計とp値が発生します。簡単に言えば、誤差項に一定の分散がない場合、通常の最小二乗法は推定に最も効率的な方法ではありません。この関連する質問を見てください。


0

「異分散性」は、予測誤差の真の標準偏差を推定することを困難にします。これにより、信頼区間が広すぎたり狭すぎたりする可能性があります(特に、エラーの分散が時間とともに増加している場合は、サンプル外の予測には狭すぎます)。

また、回帰モデルは、データのサブセットに重点を置いている可能性があります。

良い参照:線形回帰の仮定のテスト

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.