「Yは正規分布でなければなりません」
する必要がありますか?
あなたが言及している場合、それはずさんな言語(「Yのエラーは正規分布でなければなりません」と略します)ですが、実際には(強く)応答を正規分布しなければならない、または少なくともそうではないようです彼らの言葉がそのように意図されていたことを私は。
ペンシルベニア州のコース教材
語って「連続変数」Yが、また、「についてのような」我々が考えることができで呼ばアメーバようで、コメントは「条件付き」、正規分布し、YiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
この記事では、と同じ意味で使用しています。記事全体を通して、たとえば「Yの分布」について説明します。 YYi
ただし、他のいくつかのポイントでは、代わりにも参照します。YiY
従属変数は正規分布である必要はありませんが、通常は指数族(例えば、二項、ポアソン、多項、正規など)からの分布を想定しています。Yi
統計ソリューションWebページ
非常に簡潔で単純化された定型化された説明です。これを真剣に考えるべきかどうかはわかりません。たとえば、
.. すべての変数が多変量正規である必要があります...
それは単なる応答変数ではなく、
また、「多変量」記述子はあいまいです。どう解釈するのか分かりません。
ウィキペディアの記事
括弧で説明されている追加のコンテキストがあります。
通常の線形回帰は、特定の未知の量(応答変数、ランダム変数)の期待値を、一連の観測値(予測子)の線形結合として予測します。これは、予測変数が一定に変化すると、応答変数が一定に変化することを意味します(線形応答モデル)。これは、応答変数に正規分布がある場合(直感的に、応答変数が固定の「ゼロ値」なしでいずれかの方向に本質的に無制限に変化する場合、またはより一般的に比較的小さな量だけ変化する量、たとえば人間の場合に適切ですハイツ)。
この「固定ゼロ値なし」は、が無限領域(負の無限大から正の無限大)にあるとき、線形結合 が多くの変数に有限のカットオフ値(負の値を許可しないカウントなど)。y+ϵϵ∼N(0,σ)
特定の行は2012年3月8日に追加されましたが、Wikipediaの記事の最初の行には、「正規分布以外のエラー分布モデルを持つ応答変数を可能にする通常の線形回帰の柔軟な一般化」があり、 (どこでもない)間違っています。
結論
だから、(確かに可能性があり、これらの三つの例に基づいて生成誤解を、あるいは少なくとも誤解される可能性が)私はそれを言わないだろう「この誤解が広がりを持っています」。または少なくとも、これらの3つの例の意図は、Yが正規分布する必要があることを主張することではないようです(スタック交換でこの問題が発生したことを覚えていますが、正規分布エラーと正規分布応答変数の間のスワップ簡単に作成できます)。
だから、「Yは正規分布しなければならない」という仮定は、広範囲にわたる信念/誤解(赤いニシンのように広がるもののように)ではなく、より一般的なエラー(拡散ではなく、毎回独立して作られたもの)のようです)。
追加コメント
このウェブサイトの間違いの例は次の質問にあります
残差が正規分布しているが、yが分布していない場合はどうなりますか?
これは初心者の質問だと思います。ペンシルベニア州のコース教材、ウィキペディアのウェブサイトなどの資料には存在せず、最近「Rによる線形回帰の拡張」という本にコメントで記載されています。
それらの作品の作者は素材を正しく理解しています。実際、彼らは「Yは正規分布でなければならない」などのフレーズを使用しますが、文脈と使用された式に基づいて、それらはすべて「YはXに条件付けられ、正規分布でなければならない」ことを意味し、「周辺のYは正規に配布される」。彼らはアイデア自体を誤解しておらず、少なくともアイデアは統計学者や本や他の教材を書く人々の間で広まっているわけではありません。しかし、あいまいな言葉を誤読すると、実際に誤解を招く可能性があります。