残差が正規分布しているが、yが分布していない場合はどうなりますか?


110

奇妙な質問があります。単純な線形モデルで分析する従属変数が大きく左に歪んでいる小さなサンプルがあると仮定します。したがって、uは正規分布していないと仮定します。これは、が正規分布になるためyです。しかし、QQ-Normalプロットを計算すると、残差が正規分布しているという証拠があります。したがって、はそうではありませんが、エラー項は正規分布していると誰でも想定できます。エラー用語が正規分布しているように見えるが、はそうではない場合、それはどういう意味ですか?yyy

回答:


143

応答変数がそうでなくても、回帰問題の残差が正規分布することは合理的です。単変量回帰問題を考える場合。回帰モデルが適切になるように、さらに、β = 1の真の値を仮定します。この場合、真の回帰モデルの残差は正常ですが、yの条件付き平均はxの関数であるため、yの分布はxの分布に依存します。データセットに多くのxの値がある場合yN(βx,σ2)β=1yxyxxそれらはゼロに近く、の値が高くなるほど徐々に少なくなり、yの分布は左に歪んでいきます。xの値が対称的に分布している場合、yは対称的に分布し、以下同様です。回帰問題の場合、応答はxの値を条件とする通常の条件のみであると仮定します。xyxyx


9
(+1)これを何度も繰り返すことはできないと思います!ここで説明した同じ問題も参照してください。
ヴォルフガング

1
私はあなたの答えを理解し、それは正しいように聞こえます。少なくともあなたは多くの肯定的な票を獲得しました:)しかし、私はまったく幸せではありません。だからあなたの例ではあなたが作った仮定は、Y N 1 のx σ 2。しかし、回帰を推定するとき、E y | x )を推定します。したがって、平均を推定するときにxを指定する必要があります。このことから、xは値であり、それが実現する前にどのように分布したかは気にしません。だから、Y N V Lβ=1yN(1x,σ2)E(y|x)xの分布である Yx yに影響している場所がわかりません。yN(value,σ2)yxy
-MarkDollar

4
私もむしろ(楽しい)投票数に驚いています; o)回帰モデルを当てはめるために使用されるデータを取得するために、推定したい共同分布からサンプルを取得しましたE y | x 。ただし、yxの(ノイズの多い)関数なので、yのサンプルの分布は、その特定のサンプルのxのサンプルの分布に依存する必要があります。xの「真の」分布には興味がないかもしれませんが、yのサンプル分布はxのサンプルに依存します。p(y,x)E(y|x)yxyxx
ディクランマースピアル

2
緯度(x)の関数として温度()を推定する例を考えてみましょう。サンプルでのy値の分布は、気象観測所の設置場所によって異なります。それらをすべて極または赤道のいずれかに配置すると、双峰分布になります。それらを通常の等しい面積のグリッドに配置すると、気候の物理が両方のサンプルで同じであっても、y値の単峰性分布が得られます。もちろん、これは当てはめられた回帰モデルに影響し、その種の研究は「共変量シフト」として知られています。HTHyxyy
ディクランマースピアル

は、使用されたデータが操作上の共同分布p y x からのiidサンプルであるという暗黙の仮定に基づいていることも疑います。E(y|x)p(y,x)
ディクランマースピアル

100

もちろん、@ DikranMarsupialはまったく正しいのですが、特にこの懸念が頻繁に浮かび上がってくると思われるので、彼の主張を説明するのは良いことだと思いました。特に、回帰モデルの残差は、p値が正しいように正規分布する必要があります。ただし、残差が正規分布している場合でも、が保証されるわけではありません(重要ではありません...)。Xの分布に依存します。 YX

簡単な例を見てみましょう(私はそれを作成しています)。我々は薬をテストしているとしましょう孤立性収縮期高血圧(すなわち、トップ血圧数が高すぎます)。さらに、収縮期血圧は通常、患者集団内で分布し、平均160およびSDが3であり、患者が毎日服用する薬物のmgごとに、収縮期血圧が1mmHg低下することを規定します。換言すれば、真の値 160であり、そしてβ 1が -1であり、真のデータ生成機能がある: B P S Y S = 160 - 1 × 毎日の薬物投与+ εβ0β1 私たちの架空の研究では、患者300人を無作為に0mg(プラセボ)、20mgを、または一日あたりのこの新しい薬40mgのを取るために割り当てられています。( Xが正規分布していないことに注意してください。)次に、薬が有効になるのに十分な時間が経過すると、データは次のようになります。

BPsys=1601×daily drug dosage+εwhere εN(0,9)
X

ここに画像の説明を入力してください

(私はポイントが区別しにくいほど重ならないように線量をジッタリングしました。)では、の分布(つまり、限界/元の分布)と残差を調べてみましょう。 Y

ここに画像の説明を入力してください

YY

YXp<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

ここに画像の説明を入力してください

これらの結果は、すべてが正常に機能することを示しています。

X YX


1
それで、残差が正規分布しているという仮定は、p値が正しいことだけのためですか?残差が正常でない場合、p値が間違っているのはなぜですか?
アボカド

3
@loganecolss、それは新しい質問としてより良いかもしれません。とにかく、はい、p値が正しいかどうかを確認する必要があります。残差が十分に非正規であり、Nが低い場合、サンプリング分布は理論とは異なります。p値は、そのサンプリング分布が検定統計量をどれだけ超えているかであるため、p値は間違っています。
グング

0

XYX


3
応答の周辺分布は「無意味」ではありません。それは応答の周辺分布です(通常のエラーを伴う単純な回帰以外のモデルを暗示することがよくあります)。問題のモデルを楽しませた後、条件付き分布が重要であることを強調するのは正しいことですが、これは既存の優れた答えに有益に追加されません。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.