線形回帰の等分散性の仮定に違反する危険性は何ですか?


28

例として、ChickWeightRのデータセットを考えてみましょう。分散は明らかに時間とともに増大するため、次のような単純な線形回帰を使用すると、

m <- lm(weight ~ Time*Diet, data=ChickWeight)

私の質問:

  1. モデルのどの側面に疑問があるか?
  2. 問題はTime範囲外の外挿に限定されていますか?
  3. この仮定の違反に対する線形回帰の許容度(つまり、問題を引き起こすためにはどの程度異分散が必要か)。

1
回答に記載されていること以外にも、予測間隔には適切なカバレッジがありません。
Glen_b -Reinstateモニカ

回答:


22

この場合、線形モデル(または「通常の最小二乗」)には不偏性のプロパティがあります。

誤差項の不均一分散に直面しても、偏りのないパラメーター推定値はありますが、共分散行列を失います。推論(パラメーターテスト)がオフになる場合があります。一般的な修正方法は、共分散行列または標準誤差を計算するための堅牢な方法を使用することです。どちらを使用するかは多少ドメインに依存しますが、Wh​​iteの方法は出発点です。

また、完全を期すために、誤差項のシリアル相関は、パラメーター推定値に偏りが生じるため、悪化します。


標準誤差(ロバスト法など)の堅牢な推定は、パラメーターのテスト/信頼区間に役立ちますが、予測区間には役立ちませんか?
kjetil bハルヴォルセン14年

パラメータベクトルの共分散は予測の計算に使用されるため、予測間隔も一般にバイアスされます。
ムスタファSエイサー

正しい。公平な保留、推論はオフになっている可能性があります。ただし、他の2つのパラは正しいです。
ダークエデルブエッテル

1
それをキャッチし、明示的に(静かに、または「ドライブバイ」、ダウン票ではなく)してくれてありがとう。専門用語の使用において、私は単にほんの少しずさんでした。今はまし。
ダークエデルビュッテル

23

ホモセダスティシティは、OLSが最良の線形不偏推定量(BLUE)になるために必要なガウスマルコフ仮定の1つです。

β

上記のWebサイトからの情報を簡単に要約すると、不均一分散性は係数の推定値にバイアスを導入しません。ただし、不均一分散性が与えられると、分散共分散行列を適切に推定できません。したがって、係数の標準誤差は間違っています。これは、t統計量とp値を計算できないため、仮説検定が不可能であることを意味します。全体的に、不均一分散の下でOLSは効率を失い、もはや青ではありません。

ただし、不均一分散性は世界の終わりではありません。幸いなことに、不均一分散を修正することは難しくありません。サンドイッチ推定器を使用すると、係数の一貫した標準誤差を推定できます。それにもかかわらず、サンドイッチ推定器を介して標準誤差を計算するにはコストがかかります。推定器はあまり効率的ではなく、標準誤差は非常に大きい可能性があります。いくつかの効率を取り戻す1つの方法は、可能であれば標準エラーをクラスター化することです。

このテーマの詳細については、上記のWebサイトをご覧ください。


12

等分散性の欠如は、パラメータの信頼できない標準誤差推定値を与える可能性があります。パラメータ推定値は不偏です。しかし、推定値は効率的でない場合があります(青ではありません)。以下のリンクでさらに見つけることができます


12

log(Y)Yβs誤っており、絶対誤差の非競合的合計になります。分散の不変性がないことは、より根本的なモデリングの問題を示している場合があります。

Ylog(Y)


1

特に最初の質問については、他の回答に良い情報があります。最後の2つの質問に関する補足情報を追加すると思いました。

  1. 不均一分散に関連する問題は、外挿に限定されません。これらは主に信頼区間、p値、および予測限界が正しくないため、データの範囲全体に適用されます。
  2. 4×
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.