回帰残差分布の仮定


12

誤差に分布の仮定を置く必要があるのはなぜですか、すなわち

yi=Xβ+ϵiと、ϵiN(0,σ2)

書いてみませんか

yi=Xβ+ϵiyiN(Xβ^,σ2)

ここで、いずれの場合にϵi=yiy^
分布に関する仮定は、データではなくエラーに置かれていることを強調していますが、説明はありません

私はこれら2つの処方の違いを本当に理解していません。私は、データに分布の仮定が置かれている場所をいくつか見ています(ベイジアンのように見えますが、ほとんどそうです)が、ほとんどの場合、仮定はエラーに置かれています。

モデル化するとき、なぜどちらか一方の仮定から始めることを選択するのはなぜですか?


まず、それは「必要」ではなく、あなたが何をしようとしているかに依存します。良い答えはいくつかありますが、核心は、Xがyを「引き起こす」という意味で、因果関係の根底にある仮定であり、そのように見ると、yの分布はrhsの分布、つまりXとエラー(ある場合)。非常に限られた分布の仮定で、特に正規性なしで、多くの計量経済学を行うことができます。ああ、助かった。
PatrickT 14年

3
ないXβ、との人口の平均Yさんは、それのサンプル見積もりと同じではありません。これは第二のものは、実際には最初と同じものではありませんが、あなたはその期待(とそれを交換する場合と言うことであるE Y=EY=Xβ)、2は同等になります。y^XβyE(y^)=E(y)=Xβ
グレン_b-モニカの復帰14

何であるyは?そして、もしY 私はと変わる、なぜしないX β変わりますか?使用する表記法、ベクトルまたは行列を決めてください。私たちはその仮定すれば今のyを = X βあなたの表記法は、より多くの奇怪より:yのIN X " IΣ X J X " J- 1 Σ のx jをyのjをσ 2y^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)つまり、分布をそれ自体と他のすべての観測値y jの観点から定義します。yiyj
mpiktas 14年

1
表記が混乱していると思うので、この質問を下回った。これはすでにいくつかの微妙に矛盾する答えをもたらした。
mpiktas 14年

回答:


9

線形回帰設定では、分析を実行し、を条件とする結果、つまり「データ」を条件とする結果を導出することが一般的です。したがって、必要なのは、y Xが正常である、つまり、ϵが正常である必要があるということです。ピーターFlomの例が示すように、1は正規の持つことができεをの規定せずにyと何が必要なのが正常であることから、このように、そしてε賢明な仮定です、。XyXϵϵyϵ


8

私は2番目の定義を

yiN(Xiβ,σ2)

または(Karl Oskarが+1を提案しているように)

yi|XiN(Xiβ,σ2)

すなわちモデリングの仮定は、応答変数は、通常一定の分散で、(条件付き平均の推定値である)回帰直線の周りに分布していることである。分布の平均はX iに依存するため、これはy iが正規分布していることを示唆することとは異なります。σ2yiXi

機械学習の文献でこれに似た定式化を見てきました。限り、私はそれが最初の定義と同等である見ることができるよう、私が行っているすべては排除するために少し違った二製剤をrexpressすることであるさんとY さんを。ϵiy^


3

違いを例で説明するのが最も簡単です。以下に簡単なものを示します。

Yがバイモーダルであり、モダリティが独立変数によって説明されるとします。たとえば、Yが身長で、サンプル(何らかの理由で)が騎手とバスケットボール選手で構成されているとします。例えばR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

最初の密度は非常に普通ではありません。しかし、モデルの残差は非常に正常に近いものです。

制限がこのように配置されている理由について-私は他の誰かにその答えをさせます。


1
ありがとうございました!二峰性分布とはどういう意味かわかります。フォローアップの質問:データの分散が異なる場合はどうでしょうか(異相性?)言ってください..すべての騎手は小さいですが、バスケットボール選手の身長はかなりの幅があります。たぶん彼らにとっては、背の高い<-rnorm(100,78,10)。このような状況はまたはϵ iの仮定をどのように変えますか?yiϵi
bill_e 14年

その場合、不均一分散が問題になり、他の何らかの形の回帰、または場合によっては何らかの変換を使用するか、別の変数を追加する必要があります(この馬鹿げた例では、バスケットボールでプレーするポジションがそれを行うかもしれません)。
ピーターフロム-モニカの復職

公式がysが正規分布していることを示唆することを意図しているのかどうかはわかりませんが、それらは正規の条件付き分布を持っているだけです。
ディクランマースピアル14

2

私はあなたの第二の製剤にsuscripted追加する必要があります。
するので、yが一緒に変わることができる必要があるのx I

yiN(y^i,σε2)
y^xi

指摘されたことを、何であるyは私が?それは、X I β。製剤@DikranMarsupialプレゼントにこのリード:yのINX I βσ 2 ε これは、両方の規定正規分布と期待値が等しいので、これは、正確にあなたの最初の処方と同じであることを認識する価値があります。それは次のとおりです。E [ X I β ]y^ixiβ^

yiN(xiβ^,σε2)

(明らかに分散が等しい。)換言すれば、これはない仮定の違い、単に表記差。
E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]

質問は、最初の定式化を使用してアイデアを提示することを好む理由がありますか?

私は2つの理由で答えはイエスだと思う:

  1. YXY|Xε
  2. Y|XY|X

これらの確信は、最初の処方よりも2番目の処方を使用する可能性が高いと思います。


1
y^Xβy^ixiβ^iy^ixiβ^Y

y¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.