ガウス誤差を持つ単純な線形回帰は、一般化線形モデルに一般化しない非常に優れた属性です。
一般化線形モデルでは、応答は平均が与えられた特定の分布に従います。線形回帰はこのパターンに従います。もしあれば
y私= β0+ β1バツ私+ ϵ私
ϵ私〜N(0 、σ)
その後、私たちも持っています
y私〜N(β0+ β1バツ私、σ)
さて、応答は一般化線形モデルの与えられた分布に従いますが、線形回帰の場合、残差がガウス分布に従うこともあります。それが一般化された規則でない場合、残差が正常であると強調されるのはなぜですか?それは、はるかに便利なルールだからです。残差の正規性について考えることの良いところは、これを調べるのがずっと簡単だということです。推定平均を差し引くと、すべての残差はほぼ同じ分散とほぼ同じ平均(0)を持ち、ほぼ正規分布になります(注:「ほぼ」と言うのは、もちろん回帰パラメータはありませんが、 x。しかし、うまくいけば、これは無視できるほど十分な精度があると推定されます!)。ϵ私バツ
一方、未調整の見ると、それらがすべて異なる手段を持っている場合、それらが正常であるかどうかを実際に知ることはできません。たとえば、次のモデルを考えます。y私
y私= 0 + 2 × x私+ ϵ私
及びX I〜ベルヌーイ(P = 0.5 )ϵ私〜N(0 、0.2 )バツ私〜ベルヌーイ(p = 0.5 )
それからは非常に二峰性になりますが、線形回帰の仮定に違反しません!一方、残差はほぼ正規分布に従います。y私
以下に、いくつかのR
コードを示します。
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')