OLS残差が正規分布していない場合の回帰


43

このサイトには、OLS残差が漸近的に正規分布しているかどうかを判断する方法を議論するいくつかのスレッドがあります。Rコードで残差の正規性を評価する別の方法はこのすばらしい答えで提供されます。これは、標準化された残差と観測された残差の実際の違いに関する別の議論です。

しかし、この例のように、残差は明らかに正規分布していないとしましょう。ここには数千の観測があり、明らかに正規分布の残差の仮定を拒否しなければなりません。問題に対処する1つの方法は、回答で説明されているように、何らかの形式の堅牢な推定量を使用することです。しかし、私はOLSに限定されず、実際、他のglmまたは非線形の方法論の利点を理解したいと思います。

残差の仮定のOLS正規性に違反するデータをモデル化する最も効率的な方法は何ですか?または、少なくとも健全な回帰分析方法論を開発するための最初のステップは何ですか?


5
正常性が多くの目的に本質的に無関係であること議論するいくつかのスレッドもあります。独立した観測値があり、少なくとも中程度のサンプルサイズがある場合、OLSの推論で重要なことは、すべての残差が同じ分散を持つことです。正常ではありません。標準誤差のロバスト/ヘテロスケスティクス整合性/サンドイッチ/ Huber-Eicker-White推定を使用する場合、一定の分散要件さえ必要ありません。
ゲスト

@guest私はそのスレッドでの正規性テストの効率についてのみ読んでいます。回帰分析もタグ付けされていません。
ロバートキューブリック

これを試してみてください。ここだ外部リンク。また、ストックとワトソン、経済学入門のOLSの章を参照してください。私はこのようなものを作っていないことを誓います!
ゲスト

@guest 2つのリンクは、残差ではなく、結果の正規分布を扱います。
ロバートキューブリック

1
いいえ、そうではありません。著者は、しばしば「Yの分布」を「Xを条件とするYの分布」の省略形と呼んでいます。元の質問に戻るには; 小さなサンプルまたは非常に重いテールのデータがない限り、堅牢な標準エラーでOLSを使用することは良い最初のステップです。これらの場合、正常性は問題ではありません。
ゲスト

回答:


53

通常の最小二乗推定値は、非正規誤差に直面した場合でも依然として妥当な推定量です。特に、ガウス・マルコフの定理は、通常の最小二乗推定が回帰係数の最良の線形不偏推定量(BLUE)であると述べています(「最良」は、平均二乗誤差を最小化するという点で最適を意味します

(1)平均ゼロ

(2)無相関

(3)一定の分散がある

ここには正常性の条件はありません(またはエラーがIIDであるという条件さえありません)。

信頼区間や値を取得しようとすると、正規性条件が作用します。@MichaelChernickが(+1、btw)に言及しているように、正常性からの逸脱がメソッドによって処理できる限り、エラーが正常でない場合、ロバストな推論を使用できます。たとえば、(このスレッドで説明したように)Huber -estimatorは、真の誤差分布が正規分布とロングテール分布(例のように見える)の混合である場合に堅牢な推論を提供できますが、正規性からのその他の逸脱には役立たない場合があります。Michaelが示唆する興味深い可能性の1つは、OLS推定の信頼区間を取得するブートストラップと、これがHuberベースの推論とどのように比較されるかを確認することです。MpM

編集:中央限界定理に頼って通常以外のエラーを処理できると言われることがよくあります-これは常に当てはまるわけではありません(定理が失敗する反例について話しているだけではありません)。では、実際のデータ例あなたが長い尾のエラーを持っている状況で、あなたは必ずしも与えることを中心極限定理に依存することはできません- OPは、私たちは、大きなサンプルサイズを持っていますが、ロングテール誤差分布の証拠を見ることができる、を指し、現実的な有限のサンプルサイズに対して、ほぼ公平な推論を行います。たとえば、誤差がの自由度を持つ分布に従う場合(明らかにそれ以上ではありません)2.01t2.01 OPのデータに見られる誤差よりも長いテール)、係数推定値は漸近的に正規分布しますが、他の短いテールの分布よりも「キックイン」するのにはるかに時間がかかります。

以下、Iは粗シミュレーションで実証Rその場合、 、のサンプリング分布サンプルサイズが場合でも、は非常に長いテールになります。ε IT 2.01 β 1、N = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

ここに画像の説明を入力してください


2
+1、これはトピックの非常に素晴らしい概要です。編集に特に感謝しています。について特別なものはありますか?それは非常に具体的です。df=2.01
グング-モニカの復職

2
@gung、ありがとう-dfときに分布の確率変数の分散が存在しないため、中央極限定理が適用されないため、を選択しました。T D F 2df=2.01tdf2
マクロ

1
@guest、これは、長いテールのエラーがある場合に盲目的にCLTを信頼できないことを示すための不自然な例です。これは多くのアプリケーションにとって極端であることに同意しますが、例(stats.stackexchange.com/questions/29636/…)で言及されているOPでは、データは非常に長いテールのエラー分布を示しています-形状は分布が、それは明らかではありませんあまりロングテール、そしてそれが実際のデータから結果をしました。これを強調するために「編集」を編集しました。t2.01
マクロ

2
p

2
@ゲスト、私は決してOLSに反対しなかった。実際、私の答えの大部分は、分布の仮定に関係なく、OLSを行うのが妥当なことだったと思います。また、推論を行うために厳密な正規性を守る必要があると主張したことはありません-私が言っているのは、長いテールのエラーがある場合、正規近似に基づいた推論は誤解を招く可能性があることです(これがどのように/すべてあなたが言っていることを含む)そして、代替案(例:ブートストラップ)を検討することをお勧めします。。
マクロ

10

残差のすべての特性を見たいと思います。

  1. 正常
  2. 一定の分散
  3. 共変量に相関しています。
  4. 上記の組み合わせ

それが1だけであり、それがヘビーテールまたは1つのヘビーテールによる歪度によるものである場合、ロバスト回帰は適切なアプローチまたは場合によっては正規性への変換です。定数でない分散の場合、分散安定化変換を試すか、分散関数のモデル化を試みます。その共変量を含むモデルの異なる形式を示唆するのが3だけである場合。ベクトルまたは残差のブートストラップの問題は常にオプションです。


1については、尾が重い残差の正規性への変換について少し詳しく説明できますか?
ロバートキューブリック

2
対数変換または小さなラムダを使用したBox-Coxは、テールを縮小します。これは、いくつかのヘビーテールで偏った分布に対して機能します。非常に重いテールの分布に対して変換が機能するかどうかはわかりません。
マイケルチャーニック

3
ナイスはマイケルに答えます。私は、回帰推定と一般的なコントラストを含む信頼区間に対して、より定期的にブートストラップを使用し始め、これをR rmsパッケージで簡単に行えるようにしました。しかし、あなたが提案したように、分散の安定性を改善し、時には残差の正規性を改善する変換を見つけることは、ブートストラップを行う場合でも、いくつかの利点があります。「間違った」変換を使用した最小二乗推定は非常に非効率的であり、予測の平均絶対誤差と絶対誤差の中央値が大きくなる可能性があります。セミパラメトリック回帰モデルも使用しています。
フランクハレル

2

私の経験はマイケル・チャーニックと完全に一致しています。データ変換を適用すると、モデリングエラーが正規分布する場合があるだけでなく、不均一分散性も修正できます。

申し訳ありませんが、異常な量のデータを収集したり、効率の悪い堅牢な回帰方法を採用したりすることを提案することは、この科学/芸術を実践していると誤解されています。


1

マクロ(上記のjsut)は正しい答えを述べました。同じ質問があるから

残差の正規性の条件は、残差もホモスケスティクスである場合に役立ちます。その結果、OLSはすべての推定量の間で最小の分散を持ちます(線形OR非線形)。

拡張OLSの前提:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. 大きな外れ値はまれです
  4. あなたは同性愛者です
  5. uは分散されたN(0,σ2)

1〜5が検証された場合、OLSはすべての推定量(線形OR非線形)間の分散が最小になります。

1〜4のみが検証された場合、Gauss-Markovによると、OLSは最良の線形(のみ)推定量(青)です。

ソース:ストックとワトソン、計量経済学+私のコース(EPFL、計量経済学)


y残差の通常の最小二乗には正規性の要件はありませんが、正規性は、たとえば最尤分析などのいくつかの望ましい特性を与えます。後者は赤池情報量基準によく使用されます。ただし、これは不必要に制限的であり、まれにしか発生せず、より正式な要件は、正規性ではなく同分散性であり、これは幸いです。
カール

@Carl:厳密に言えば、OLSの要件はありません。1または2でさえありません(Excelに回帰を実行し、質問はしません)。間隔、テスト。
PatrickT

@PatrickT何かを計算する能力は意味を与えません。たとえば、コーシー分布値エラーのあるラインに関するOLS線形回帰では、CIの勾配と切片が増加し、事実上何でも受け入れますが、元のラインまたは勾配は返されません。これをPyrrhic計算と呼ぶかもしれません。y
カール

同じことを言っているに違いありません。おそらく、あなたの最初のコメントのフレージングは​​私を混乱させたでしょう。
PatrickT

1

非通常の条件の場合、特にメソッドへのリンクを使用して、強力な回帰に頼ることがあります

非正規性のコンテキストを提示するために、線形OLS回帰の仮定を確認すると役立つ場合があります。

  • 弱い外因性。これは本質的に、予測変数xを、ランダム変数ではなく固定値として扱うことができることを意味します。これは、たとえば、予測変数にエラーがないと想定されること、つまり、測定エラーで汚染されていないことを意味します。この仮定は、最も頻繁に違反されるものであり、この仮定リストに従って列挙されているエラーにつながります。
  • 直線性。これは、応答変数の平均がパラメーター(回帰係数)と予測変数の線形結合であることを意味します。この仮定は、最初に思われるよりもはるかに制限が少ないことに注意してください。予測変数は固定値として扱われるため(上​​記参照)、線形性は実際にはパラメーターの制限にすぎません。予測変数自体を任意に変換することができ、実際、同じ基礎となる予測変数の複数のコピーを追加でき、それぞれが異なる方法で変換されます。
  • 一定の分散(別名等分散性)。これは、予測変数の値に関係なく、応答変数の異なる値の誤差に同じ分散があることを意味します。実際には、応答変数が広範囲に変化する可能性がある場合、この仮定は無効です(つまり、エラーは不均一である)。異種の誤差分散をチェックするため、または残差のパターンが等分散性のモデル仮定に違反するとき)、残留誤差と予測値の間の「ファンニング効果」を探すのが賢明です。これは、予測変数に対してプロットすると、絶対残差または二乗残差に体系的な変化があることを意味します。エラーは回帰線全体に均等に分散されません。異分散性により、ポイントの周囲の識別可能な分散が平均化され、線のすべての分散を不正確に表す単一の分散が得られます。実際、残差は、線形回帰線に沿ったポイントのより大きな値とより小さな値の予測プロット上でクラスター化され、分散して表示され、モデルの平均二乗誤差は間違っています。
  • エラーの独立。これは、応答変数のエラーが互いに相関していないことを前提としています。(実際の統計的独立性は、相関関係の単なる欠如よりも強い条件であり、多くの場合必要ありませんが、保持することが知られている場合は悪用することができます。最小二乗法)は相関エラーを処理できますが、通常、何らかの正則化を使用して非相関エラーを想定するようにモデルをバイアスしない限り、より多くのデータが必要になります。ベイジアン線形回帰は、この問題を処理する一般的な方法です。
  • 誤差項とリグレッサとの統計的関係は、推定手順にバイアスのない一貫した望ましいサンプリング特性があるかどうかを判断する上で重要な役割を果たします。

  • 予測変数xの配置または確率分布は、βの推定の精度に大きな影響を与えます。実験のサンプリングと設計は、βの正確な推定を達成するような方法でデータを収集するためのガイダンスを提供する統計の高度に発達したサブフィールドです。

この答えが示すように、線からシミュレートされたスチューデントの分布軸誤差は、自由度()が減少するにつれてサイズが増加する勾配と切片の信頼区間を持つOLS回帰線につながります。ため、Student's-コーシー分布であり、傾きの信頼区間になる。tydfdf=1t(,+)

生成エラーがコーシー分布である場合、データを通るスプリアスラインからのOLS残差の信頼性はさらに低くなる、つまり、ガベージイン---ガーベッジアウトという意味で、残差に関してコーシー分布を呼び出すことは任意です。そのような場合、Theil-Sen回帰回帰を使用できます。Theil-Senは、非正規残差に対してOLSよりも確かに堅牢です。たとえば、Cauchy分布誤差は信頼区間を低下させず、OLSとは異なり、2変量回帰ですが、2変量の場合は依然としてバイアスがかかります。Passing-Bablok回帰は、より偏りのない二変数にすることができますが、負の回帰勾配には適用されません。メソッド比較研究に最もよく使用されます。デミング回帰に言及する必要がありますここでは、Theil-SenおよびPassing-Bablok回帰とは異なり、2変量問題の実際の解決策ですが、他の回帰の堅牢性はありません。たとえば、ランダムサンプルコンセンサス(RANSAC)は、外れ値を含む観測データのセットから数学モデルのパラメーターを推定する反復法です。

それでは、二変量回帰とは何ですか?問題の二変量の性質のテストの欠如は、OLS 回帰希釈の最も頻繁な原因であり、このサイトの他の場所でうまく提示さています。この文脈でのOLSバイアスの概念は十分に認識されていません。たとえば、Longford et al。(2001)、読者に他の方法を紹介し、回帰モデルを拡張して変数の変動性を確認し、バイアスが発生しないようにします。言い換えれば、と両方がx1 x y x y y 2 x y x y = f x 1xy値はランダムに分布します。2変量回帰の必要性は、OLS回帰線をデータのOLS回帰からの残差に当てはめることでテストできます。次に、OLS残差にゼロ以外の勾配がある場合、問題は2変量であり、データのOLS回帰には勾配の大きさが浅すぎ、関数の関係を表すには大きすぎる切片があります。と間。これらの場合、値の最小誤差線形推定値は実際にはまだOLS回帰からのものであり、そのR値は可能な最大値になりますが、OLS回帰線は関連する実際の線関数を表しませんとxyy2xyランダム変数。反例として、等距離の値を持つ時系列の他の問題の中で発生するように、生データのOLSが必ずしも不適切ではない場合、最良の行を表すことがありますが、それでもカウントデータなどの変数変換では、カウントの平方根を使用してポアソン分布誤差の誤差をより正常な状態に変換しますが、それでも残差のゼロ以外の勾配を確認する必要があります。 xy=f(x)

  1. ロングフォード、NT(2001)。"対応"。Journal of the Royal Statistical Society、シリーズA. 164:565. doi:10.1111 / 1467-985x.00219
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.