回答:
それはすべて、パラメータの推定方法に依存します。通常、推定量は線形です。これは、残差がデータの線形関数であることを意味します。エラー場合正規分布を有していて、そのようにデータを行うので、残差行うそこ(インデックスコースのデータの場合、)。、U I I
残差がほぼ正規(単変量)分布を持っているように見える場合、これは誤差の非正規分布から生じると考えられます(そして論理的に可能です)。ただし、最小二乗(または最尤)推定手法では、残差の(多変量)分布の特性関数が誤差のcfと大きく異なることはできないという意味で、残差を計算する線形変換は「マイルド」です。 。
実際には、我々は決して誤りができることを必要としない、正確に正規分布するので、これは重要な問題です。エラーのはるかに重要な点は、(1)それらの期待値がすべてゼロに近いことです。(2)それらの相関は低いはずです。(3)許容範囲内の少数の外れ値があるはずです。これらを確認するために、さまざまな適合度検定、相関検定、および外れ値の検定を(それぞれ)残差に適用します。慎重な回帰モデリングには、常にこのようなテストの実行が含まれます(クラスplot
に適用されたときにRのメソッドによって自動的に提供されるような残差のさまざまなグラフィカルな視覚化が含まれますlm
)。
この問題を解決する別の方法は、仮説モデルからシミュレートすることです。ここにR
、仕事をするためのいくつかの(最小限の、一度限りの)コードがあります:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
n = 32の場合、99セットの残差のこのオーバーレイされた確率プロットは、基準線に一様に開するため、誤差分布(標準正規分布)に近い傾向があることを示しています。
n = 6の場合、確率プロットの中央値の傾きが小さいことは、残差が誤差よりもわずかに小さい分散を持っていることを示唆していますが、それらのほとんどは基準線を十分に追跡するため、全体的に正規分布する傾向があります(小さな値):
rexp(n)
代わりにsayを追加すると、事態はさらに面白くなるでしょうrnorm(n)
。残差の分布は、あなたが考えるよりも普通に近くなります。
最小二乗の幾何学を思い出してみましょう。基本方程式 が行列形式でとして書かれています そこから残差を導出します ここで、は射影行列またはハット行列です。個々の残差は、潜在的に大きな対角値それ自体の残差であり、非対角線上の小さな値の束残差
おなじみの分布のようなものが得られた場合、エラー項にこの分布があると仮定できますか?
エラーについての正規性の仮定が成り立たない場合、ちょうどフィットしたモデルは無効であるため、私はあなたができないと主張します。(分布の形状がコーシーなどのように明らかに非正規であるという意味で)
ポアソン分布誤差feを仮定する代わりの通常のアプローチは、残差を正規化するために、log yや1 / yなどの何らかの形式のデータ変換を実行することです。(また、実際のモデルは線形ではない可能性があり、実際には正常であるにもかかわらず、プロットされた残差が奇妙に分布しているように見えます)
たとえば、残差が正規分布に似ていることがわかった場合、母集団の誤差項の正規性を仮定することは理にかなっていますか?
OLS回帰に適合したら、エラーの正常性を仮定しました。その主張に議論を提供する必要があるかどうかは、作業の種類とレベルに依存します。(この分野で受け入れられている慣行を調べると便利なことがよくあります)
実際、残差が実際に正規分布しているように見える場合は、以前の仮定の経験的証拠として使用できるため、背中をかわすことができます。:)
はい、賢明です。残差はエラーです。通常のQQプロットも見ることができます。