線形回帰での残差の分布の確認

17

単純な線形回帰、残差を保存し、残差の分布のヒストグラムを描くと仮定します。おなじみの分布のようなものが得られた場合、エラー項にこの分布があると仮定できますか？たとえば、残差が正規分布に似ていることがわかった場合、母集団の誤差項の正規性を仮定するのは理にかなっていますか？私はそれが賢明だと思いますが、どのようにそれを正当化できますか？ $y=\beta_0+\beta_1x+u$ $\hat{u_i}$

r regression residuals

— marcin63
ソース

1

個人的には、ヒストグラム（またはカーネル密度プロット）から正規性を評価するのはかなり難しいと感じています。私はそれらを「究極の」証拠として決して頼りません。QQプロットは、この目的のためにはるかに強力です。

18

それはすべて、パラメータの推定方法に依存します。通常、推定量は線形です。これは、残差がデータの線形関数であることを意味します。エラー場合正規分布を有していて、そのようにデータを行うので、残差行うそこ（インデックスコースのデータの場合、）。 $u_i$ $\hat{u}_i$ $i$

残差がほぼ正規（単変量）分布を持っているように見える場合、これは誤差の非正規分布から生じると考えられます（そして論理的に可能です）。ただし、最小二乗（または最尤）推定手法では、残差の（多変量）分布の特性関数が誤差のcfと大きく異なることはできないという意味で、残差を計算する線形変換は「マイルド」です。。

実際には、我々は決して誤りができることを必要としない、正確に正規分布するので、これは重要な問題です。エラーのはるかに重要な点は、（1）それらの期待値がすべてゼロに近いことです。（2）それらの相関は低いはずです。（3）許容範囲内の少数の外れ値があるはずです。これらを確認するために、さまざまな適合度検定、相関検定、および外れ値の検定を（それぞれ）残差に適用します。慎重な回帰モデリングには、常にこのようなテストの実行が含まれます（クラスplotに適用されたときにRのメソッドによって自動的に提供されるような残差のさまざまなグラフィカルな視覚化が含まれますlm）。

この問題を解決する別の方法は、仮説モデルからシミュレートすることです。ここにR、仕事をするためのいくつかの（最小限の、一度限りの）コードがあります：

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

n = 32の場合、99セットの残差のこのオーバーレイされた確率プロットは、基準線に一様に開するため、誤差分布（標準正規分布）に近い傾向があることを示しています。 $y=x$

n = 32の図

n = 6の場合、確率プロットの中央値の傾きが小さいことは、残差が誤差よりもわずかに小さい分散を持っていることを示唆していますが、それらのほとんどは基準線を十分に追跡するため、全体的に正規分布する傾向があります（小さな値）： $n$

n = 6の図

— ウーバー
ソース

データを生成するときのrexp(n)代わりにsayを追加すると、事態はさらに面白くなるでしょうrnorm(n)。残差の分布は、あなたが考えるよりも普通に近くなります。

— StasK

しかし、残差が正常であると仮定しない場合、結果の推定係数のp値はどのように計算されますか？テスト統計とは何ですか？

— アリ

5

最小二乗の幾何学を思い出してみましょう。基本方程式が行列形式でとして書かれていますそこから残差を導出しますここで、は射影行列またはハット行列です。個々の残差は、潜在的に大きな対角値それ自体の残差であり、非対角線上の小さな値の束残差

y_{i} = x_{i}^{'} β + ϵ_{i}

$y_i = x_i'\beta + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X}\beta + \mathbf{\epsilon}$

e = (I - H) y

$\mathbf{e} = (I-H) \mathbf{y}$

H = X (X^{'} X)^{- 1} X^{'}

$H = X(X'X)^{-1} X'$

e_{i}

$e_i$

(1 - h_{i i})

$(1-h_{ii})$

ϵ_{i}

$\epsilon_i$

h_{i j}

$h_{ij}$

ϵ_{j}, j \neq i

$\epsilon_j, j\neq i$ 。（非対角値が小さいと言っている理由は、であり、実際には対角または非対角エントリはおおよそのオーダーですが、これは非常に厳密なステートメントではありませんが、高レバレッジポイントによって簡単にスローオフされます。）小さいウェイトのiidピースをたくさんまとめるとどうなりますか？右、中心極限定理により正規分布を取得します。したがって、非対角項の残差への寄与は、大きなサンプルで本質的に正規の成分を生成し、誤差元の分布が特徴とする非正規性を滑らかにします。もちろん、残差大部分は

\sum_{j \neq i} h_{i j}^{2} + h_{i i}^{2} = h_{i i}

$\sum_{j\neq i} h_{ij}^2 + h_{ii}^2 = h_{ii}$

O (1 / n)

$O(1/n)$

ϵ_{i}

$\epsilon_i$

e_{i}

$e_i$ まだ独自のエラーから発生していますが、これらすべての用語の相互作用により、元のエラー分布よりも正規分布にはるかに近い分布が生成される場合があります。

(1 - h_{i i}) ϵ_{i}

$(1-h_{ii})\epsilon_i$

— StasK
ソース

1

おなじみの分布のようなものが得られた場合、エラー項にこの分布があると仮定できますか？

エラーについての正規性の仮定が成り立たない場合、ちょうどフィットしたモデルは無効であるため、私はあなたができないと主張します。（分布の形状がコーシーなどのように明らかに非正規であるという意味で）

ポアソン分布誤差feを仮定する代わりの通常のアプローチは、残差を正規化するために、log yや1 / yなどの何らかの形式のデータ変換を実行することです。（また、実際のモデルは線形ではない可能性があり、実際には正常であるにもかかわらず、プロットされた残差が奇妙に分布しているように見えます）

たとえば、残差が正規分布に似ていることがわかった場合、母集団の誤差項の正規性を仮定することは理にかなっていますか？

OLS回帰に適合したら、エラーの正常性を仮定しました。その主張に議論を提供する必要があるかどうかは、作業の種類とレベルに依存します。（この分野で受け入れられている慣行を調べると便利なことがよくあります）

実際、残差が実際に正規分布しているように見える場合は、以前の仮定の経験的証拠として使用できるため、背中をかわすことができます。:)

— 意味する
ソース

0

はい、賢明です。残差はエラーです。通常のQQプロットも見ることができます。

— トーマス
ソース

はい、正解です。「しかし、どうすればそれを正当化できますか？」何の経験分布ことを私たちを保証のその近似する？

{\hat{u}}_{i}

$\hat{u}_i$

u

$u$

— whuber

7

これは教訓的ですが、残差はエラーではありません。残差は、推定モデルから観測された差です。エラーは、真のモデルとの違いです。

y_{i} - x_{i} \hat{β}

$y_{i} - x_{i} \hat{\beta}$

y_{i} - x_{i} β

$y_{i} - x_{i} \beta$

— マクロ

@whuber：私はそれが何であるかわかりませんが、母集団近似するサンプルを正当化するのと同じことだと思いますか？

x

$x$

X

$X$

— ウェイン

1

@ウェイン、「それ」は、「残差が正規分布に似ていることがわかった場合、...母集団の誤差項の正規性を仮定する」という手順を指すと思います。基本的には正しいと思いますが、微妙な点は、残差がサンプルとパラメーターの推定に使用される方法の両方の積であるということです。これは思慮深く興味深い質問だと思います。

— whuber

@whuberスチューデント化された残差と標準化された残差と生の残差の比較に興味があります。

— ミシェル