通常の最小二乗推定値は、非正規誤差に直面した場合でも依然として妥当な推定量です。特に、ガウス・マルコフの定理は、通常の最小二乗推定が回帰係数の最良の線形不偏推定量(BLUE)であると述べています(「最良」は、平均二乗誤差を最小化するという点で最適を意味します)
(1)平均ゼロ
(2)無相関
(3)一定の分散がある
ここには正常性の条件はありません(またはエラーがIIDであるという条件さえありません)。
信頼区間や値を取得しようとすると、正規性条件が作用します。@MichaelChernickが(+1、btw)に言及しているように、正常性からの逸脱がメソッドによって処理できる限り、エラーが正常でない場合、ロバストな推論を使用できます。たとえば、(このスレッドで説明したように)Huber -estimatorは、真の誤差分布が正規分布とロングテール分布(例のように見える)の混合である場合に堅牢な推論を提供できますが、正規性からのその他の逸脱には役立たない場合があります。Michaelが示唆する興味深い可能性の1つは、OLS推定の信頼区間を取得するブートストラップと、これがHuberベースの推論とどのように比較されるかを確認することです。MpM
編集:中央限界定理に頼って通常以外のエラーを処理できると言われることがよくあります-これは常に当てはまるわけではありません(定理が失敗する反例について話しているだけではありません)。では、実際のデータ例あなたが長い尾のエラーを持っている状況で、あなたは必ずしも与えることを中心極限定理に依存することはできません- OPは、私たちは、大きなサンプルサイズを持っていますが、ロングテール誤差分布の証拠を見ることができる、を指し、現実的な有限のサンプルサイズに対して、ほぼ公平な推論を行います。たとえば、誤差がの自由度を持つ分布に従う場合(明らかにそれ以上ではありません)2.01t2.01 OPのデータに見られる誤差よりも長いテール)、係数推定値は漸近的に正規分布しますが、他の短いテールの分布よりも「キックイン」するのにはるかに時間がかかります。
以下、Iは粗シミュレーションで実証R
その場合、 、のサンプリング分布サンプルサイズが場合でも、は非常に長いテールになります。ε I〜T 2.01 β 1、N = 4000yi=1+2xi+εiεi∼t2.01β^1n=4000
set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
x = rnorm(4000)
y = 1 + 2*x + rt(4000,2.01)
g = lm(y~x)
B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])