したがって、エラー項が正規分布であると仮定した場合、応答も正規分布であることを意味しないのでしょうか?
リモートでも。私がこれを覚えているのは、残差がモデルの決定論的な部分を条件とする正常なものだということです。これが実際にどのように見えるかのデモです。
いくつかのデータをランダムに生成することから始めます。次に、予測子の線形関数である結果を定義し、モデルを推定します。
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
これらの残差がどのように見えるかを見てみましょう。結果y
にiidの通常のノイズが追加されたため、それらは正規分布する必要があると思います。そして確かにそうです。
plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
しかし、yの分布を確認すると、それは間違いなく正規ではないことがわかります!と同じ平均と分散で密度関数を重ねましたy
が、明らかにひどい適合です!
このケースでこれが発生した理由は、入力データがリモートでも正常ではないためです。この回帰モデルについては、独立変数や従属変数ではなく、残差を除いて正規性を必要としません。