Normalエラーの仮定は、YもNormalであることを意味しますか?


12

誤解しない限り、線形モデルでは、応答の分布には系統的な成分とランダムな成分があると想定されます。エラー項は、ランダム成分をキャプチャします。したがって、エラー項が正規分布であると仮定した場合、応答も正規分布であることを意味しないのでしょうか?私はそれを行うと思いますが、その後、次のようなステートメントはかなり混乱しているように見えます:

そして、このモデルの「正規性」の唯一の仮定は、残差(または「エラー」)が正規分布することであることが明確にわかります。予測子x iまたは応答変数y iの分布に関する仮定はありませんϵixiyi

出典:予測子、応答、および残差:正規分布に実際に必要なものは何ですか?


7
が確率的でない場合、ϵの正規性は従属変数の正規性を意味します。確率的独立変数の場合、これは一般的に成り立たず、独立変数の分布に依存します。xϵ

回答:


19

標準的なOLSモデルであるε N0σ 2 I Nのための固定されたX R N × PY=Xβ+εεN(0σ2n バツRn×p

これは確かに、これは分布に関する我々の仮定の結果であるが、εはなく、実際に想定されるよりも、。また、私はの条件付き分布について話していることに注意してYの周辺分布ではなく、Y。私はそれがあなたが本当に求めているものだと思うので、条件付き分布に焦点を当てています。Y|{バツβσ2}Nバツβσ2nεYY

紛らわしいのは、これヒストグラムが正常に見えることを意味しないということです。私たちは、全体のベクトルと言っているYは、各要素が潜在的に異なる平均持つ多変量正規分布からのシングルドローでEは、Y I | X I= X T I β。これは、通常のiidサンプルと同じではありません。エラーεは実際にはiidサンプルであるため、それらのヒストグラムは正常に見えます(それが、応答ではなく残差のQQプロットを行う理由です)。YYEY|バツ=バツTβε

次に例を示します。6年生と12年生のサンプルの高さを測定しているとします。我々のモデルは、H I = β 0 + β 1 I 12学年+ ε ε IIID N0 σ 2H iのヒストグラムを見ると、6年生に1つのピーク、12年生に1つのピークがあるバイモーダル分布が表示されますが、これは仮定の違反ではありません。HH=β0+β112年生+εε イイド N0σ2H


誰かが表記明確にしてくださいでしたσ2n
-snoram

それは意味のスカラーで乗算単位行列σ 2n×nσ2
jld

の単位行列時間いくつかの分散。n×n
Sycoraxは回復モニカ言う

11

したがって、エラー項が正規分布であると仮定した場合、応答も正規分布であることを意味しないのでしょうか?

リモートでも。私がこれを覚えているのは、残差がモデルの決定論的な部分を条件とする正常なものだということです。これが実際にどのように見えるかのデモです。

いくつかのデータをランダムに生成することから始めます。次に、予測子の線形関数である結果を定義し、モデルを推定します。

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

これらの残差がどのように見えるかを見てみましょう。結果yにiidの通常のノイズが追加されたため、それらは正規分布する必要があると思います。そして確かにそうです。

ここに画像の説明を入力してください

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

しかし、yの分布を確認すると、それは間違いなく正規ではないことがわかります!と同じ平均と分散で密度関数を重ねましたyが、明らかにひどい適合です!

yの密度

このケースでこれが発生した理由は、入力データがリモートでも正常ではないためです。この回帰モデルについては、独立変数や従属変数ではなく、残差を除いて正規性を必要としません。

xの不足


8

いいえ、そうではありません。たとえば、オリンピック選手の体重を予測するモデルがあるとします。体重は各スポーツのアスリート間で通常分配される可能性がありますが、すべてのアスリート間ではありません-ユニモーダルでさえないかもしれません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.