Yを正規に配布する必要があるという誤解はどこから来ますか?


45

一見信頼できるソースは、従属変数は正規分布でなければならないと主張しています。

モデルの仮定:は正規分布、エラーは正規分布、独立、は固定、定数分散です。E IN 0 σ 2X σ 2YeiN(0,σ2)Xσ2

ペンシルベニア州立大学、STAT 504離散データの分析

第二に、線形回帰分析では、すべての変数が多変量正規である必要があります。

統計解、線形回帰の仮定

これは、応答変数に正規分布がある場合に適切です。

ウィキペディア、一般化線形モデル

この誤解がどのように、またはなぜ広まったのか、良い説明はありますか?その起源は知られていますか?

関連する


17
悲しい。あなたはここで善行をしています
...-jbowman

7
の周辺分布を必要とする線形回帰を使用する状況、またはすべての変数のジョイントが多変量正規である状況を知りません。それらは私には誤解のように見えます。Y
マシュードゥルーリー

8
@MichaelChernick「Yは正規分布している」は明らかに偽です。Rでそれをチェックアウト:X <- runif(n=100)その後、Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)その後、XやYのいずれもが正規分布していることを自分自身を納得させるためにヒストグラムと遊びます。次にsummary(lm(Y ~ X))、切片が3にどれだけ近く、Xの勾配が0.5に非常に細心の注意を払います。仮定は、エラーが正規分布していることです。
アレクシス

9
@アレクシスマイケルが言っていたことは、多変量正規性の仮定は十分である必要ではないということです。 それが明らかにウィキペディアの引用を読むべき方法です。2番目の引用は、これらの仮定が必要であると断言するのは明らかに間違っています。最初の引用はあいまいですが、マイケルによって解明された意味で寛大に読むことができました。
whuber

6
私が言っていたのは、正規性の仮定が特定の特性を意味するということだけでした。たとえば、単純な線形回帰では、誤差項が平均がゼロで分散が一定のiid正規分布であると仮定した場合、回帰パラメーターの最小二乗推定値は最尤法です。正規性最小二乗を除くすべての仮定を維持することは最尤ではなくなりましたが、依然として最小分散不偏です。
マイケルチャーニック

回答:


13

「Yは正規分布でなければなりません」

する必要がありますか?


あなたが言及している場合、それはずさんな言語(「Yのエラーは正規分布でなければなりません」と略します)ですが、実際には(強く)応答を正規分布しなければならない、または少なくともそうではないようです彼らの言葉がそのように意図されていたことを私は。

ペンシルベニア州のコース教材

語って「連続変数」Yが、また、「についてのような」我々が考えることができで呼ばアメーバようで、コメントは「条件付き」、正規分布し、Yi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

この記事では、と同じ意味で使用しています。記事全体を通して、たとえば「Yの分布」について説明します。 YYi

  • GLM(バイナリロジスティック回帰)のいくつかのバリアントを説明するとき、

    ランダム成分:の分布であると仮定される、...YBinomial(n,π)

  • ある定義では

    ランダム成分 -応答変数()の確率分布を指します。たとえば、線形回帰の正規分布、またはバイナリロジスティック回帰の二項分布。YYY

ただし、他のいくつかのポイントでは、代わりにも参照します。YiY

  • 従属変数は正規分布である必要はありませんが、通常は指数族(例えば、二項、ポアソン、多項、正規など)からの分布を想定しています。Yi

統計ソリューションWebページ

非常に簡潔で単純化された定型化された説明です。これを真剣に考えるべきかどうかはわかりません。たとえば、

.. すべての変数が多変量正規である必要があります...

それは単なる応答変数ではなく、

また、「多変量」記述子はあいまいです。どう解釈するのか分かりません。

ウィキペディアの記事

括弧で説明されている追加のコンテキストがあります。

通常の線形回帰は、特定の未知の量(応答変数、ランダム変数)の期待値を、一連の観測値(予測子)の線形結合として予測します。これは、予測変数が一定に変化すると、応答変数が一定に変化することを意味します(線形応答モデル)。これは、応答変数に正規分布がある場合(直感的に、応答変数が固定の「ゼロ値」なしでいずれかの方向に本質的に無制限に変化する場合、またはより一般的に比較的小さな量だけ変化する量、たとえば人間の場合に適切ですハイツ)。

この「固定ゼロ値なし」は、が無限領域(負の無限大から正の無限大)にあるとき、線形結合 が多くの変数に有限のカットオフ値(負の値を許可しないカウントなど)。y+ϵϵN(0,σ)

特定の行は2012年3月8日に追加されましたが、Wikipediaの記事の最初の行には、「正規分布以外のエラー分布モデルを持つ応答変数を可能にする通常の線形回帰の柔軟な一般化」があり、 (どこでもない)間違っています。


結論

だから、(確かに可能性があり、これらの三つの例に基づいて生成誤解を、あるいは少なくとも誤解される可能性が)私はそれを言わないだろう「この誤解が広がりを持っています」。または少なくとも、これらの3つの例の意図は、Yが正規分布する必要があることを主張することではないようです(スタック交換でこの問題が発生したことを覚えていますが、正規分布エラーと正規分布応答変数の間のスワップ簡単に作成できます)。

だから、「Yは正規分布しなければならない」という仮定は、広範囲にわたる信念/誤解(赤いニシンのように広がるもののように)ではなく、より一般的なエラー(拡散ではなく、毎回独立して作られたもの)のようです)。


追加コメント

このウェブサイトの間違いの例は次の質問にあります

残差が正規分布しているが、yが分布していない場合はどうなりますか?

これは初心者の質問だと思います。ペンシルベニア州のコース教材、ウィキペディアのウェブサイトなどの資料には存在せず、最近「Rによる線形回帰の拡張」という本にコメントで記載されています。

それらの作品の作者は素材を正しく理解しています。実際、彼らは「Yは正規分布でなければならない」などのフレーズを使用しますが、文脈と使用された式に基づいて、それらはすべて「YはXに条件付けられ、正規分布でなければならない」ことを意味し、「周辺のYは正規に配布される」。彼らはアイデア自体を誤解しておらず、少なくともアイデアは統計学者や本や他の教材を書く人々の間で広まっているわけではありません。しかし、あいまいな言葉を誤読すると、実際に誤解を招く可能性があります。


3
+1それは言った:私たちは皆、この辺でYの限界正常性を主張する多くの質問を見たと思う...誤解の広がりがある。:)
アレクシス

はい、「y正規分布」という仮定が頻繁に発生することに同意します(簡単な例を見つけることはできませんでしたが、人々はこれらのことを単純なキーワードではなく行の間に記述しているためかもしれません)。しかし、これは「一般的」なものではなく、「広まっている」ほどのものではないと思います。そして少なくとも、確かに、OPによって与えられた3つの例はそれほど強くありません(誤解の広がりを示すという意味では強くありませんが、言語の病理学的使用とエラーの発生方法を説明しています)。
セクストゥスエンピリカス

@Martijn Weterings:「この誤解が広がったとは言いません」というあなたの声明に同意したいと思います。Julian Farawayは、多くの大学院統計プログラムで必要な読書として使用されている彼の著書 『Extending the Rカウントまたはプロポーションとして」。
ColorStatistics

@ColorStatistics、「広範囲」に与えるコンテキストと解釈に注意してください(赤いニシンのように広がるもののように)。人々は間違いを犯し、これらの間違いはいたるところにあるかもしれません。しかし、それは取得にと広がるようではありませんコピー(例えば、コピー、およびしまった間違いの例スプレッドアウトを使用したの代わりに、分割表の自由度、1900年から1920年の間に発生しました).....n1(r1)(c1)
Sextus Empiricus

1
@ColorStatistics、私はテキストのいくつかの部分を調べたところ、著者が混同していないことは明らかです(曖昧でない式に基づいて)。たとえば、本は「でεy=β0+β1x1+...βpxp+ϵϵます。ここでは正規分布します」。確かに、作家は「応答は...配布される」などのフレーズをよく使用します。しかし、条件付き応答を意味します。私はこれをより簡潔な文章と考えており、筆者は、限界反応には言及されている特定の分布が必要であることを文字通り伝えるつもりはありません。
セクストゥス

29

この誤解がどのように/なぜ広まったのか、良い説明はありますか?その起源は知られていますか?

私たちは通常、学部生に多くの分野で統計の「単純化された」バージョンを教えています。私は心理学を専攻しており、学部生にp値は「帰無仮説が真である場合のデータまたはより極端なデータの確率」であることを伝えようとすると、同僚は必要以上の詳細をカバーしていると言いますカバーするために。クラスの学生は統計に関して非常に幅広い快適さ(またはその欠如)を持っているので、インストラクターは一般的にシンプルに保ちます。たとえば、p値の実際の定義を提供する代わりに、p <.05、」を使用します。

これが、誤解が広まった理由の説明だと思います。たとえば、モデルを次のように書くことができます。

ε N 0 σ 2 εY=β0+β1X+ϵここで、ϵN(0,σϵ2)

これは次のように書き直すことができます。

Y|XN(β0+β1X,σϵ2)

これは、「Xを条件とするYは、予測値といくらかの分散の平均とともに正規分布する」ことを意味します。

これを説明するのは難しいので、速記者は単に「Yは正規分布でなければならない」と言うかもしれません。または、最初に説明されたとき、人々は条件付き部分を誤解しました。それは、正直なところ、混乱しているからです。

したがって、物事を非常に複雑にしないために、インストラクターは、ほとんどの生徒を過度に混乱させないように、彼らが言っていることを単純化します。そして、人々はその誤解で統計教育や統計実践を続けます。私自身は、スタンでベイジアンモデリングを開始するまで概念を完全に理解していませんでした。

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

また、GUIを使用した多くの統計パッケージ(SPSSを見る)では、残差が正規分布している(回帰を実行する)よりも、周辺分布が正規分布している(単純なヒストグラム)かどうかを確認する方が簡単です。残差を保存し、それらの残差でヒストグラムを実行します)。

したがって、誤解は主に、正しい方法で学習している人々の混乱、真正、そして理解しやすい混乱を防ぐためにインストラクターが詳細を削ろうとするためであり、これらの両方は、最もユーザーフレンドリーな統計パッケージ。


2
あなたは正しいと思います。多くの人は条件付き部分を理解していません。彼らはただ正規分布していると考えています。
-SmallChess

3
これは、このエラーが発生/拡散するモードの1つである可能性があることに同意します。しかし、ペンシルベニア州のコース教材は、この「意図的な」単純化によるものではなく、また、ずさんな表記法によるものでもあるように思えます。それは小さな(コース)ノートに少し似ています。または、stackexchangeへのコメント、言語の簡略化など。いくつかの場所では、彼らは正しい言葉を使用します。(個人的には、私の回路図/図は私の言葉/式よりも優れていますが、それが間違っている場合、私が書いたものが必ずしも間違った考えであることを意味しません)
Sextus Empiricus

1
@MartijnWeterings Agreeed—特定の言語を使用しないことで誰かを混乱させることは非常に簡単です。統計的仮定のような抽象的なものであなたの言語を常に特定することは困難であり、多くの賢い人は単純な間違いを犯し、このような広範な誤解につながります。
マークホワイト

1
MarkWhite、私たちが教える方法に直接注意を向けてくれたことに本当に感謝しています...それは、「誤解の広がり」に対するOPの関心に重要な意味で語っていると思います(誤解とは何かのニュアンスに加えて) )。
アレクシス

16

回帰分析は初心者には困難です。これは、異なる開始前提によって暗示される異なる結果があるためです。弱い開始仮定は結果の一部を正当化できますが、より強い仮定を追加するとより強い結果を得ることができます。結果の完全な数学的導出に精通していない人は、必要な結果を得るにはモデルをあまりにも弱くするか、結果に必要であるという信念に不必要な仮定をかけることで、結果に必要な仮定を誤解することがよくあります。

より強力な仮定を追加して追加の結果を取得することは可能ですが、回帰分析自体は応答ベクトルの条件付き分布に関係します。モデルがこれを超えると、多変量解析の領域に入り、厳密に(単なる)回帰モデルではなくなります。条件付き分布であることを常に指定せずに、回帰で分布結果を参照するのが一般的であるという事実により、問題はさらに複雑になります(設計行列の説明変数が与えられます)。モデルが条件付き分布を超える場合(説明ベクトルの周辺分布を想定することにより)、ユーザーはこの違いを指定するよう注意する必要があります。残念ながら、人々は常にこれに注意を払っていません。


Homoskedastic線形回帰モデル:通常使用される最も早い開始点は、正規性をまったく仮定せずにモデル形式と最初の2つの誤差モーメントを仮定することです。

Y=xβ+εE(ε|x)=0V(ε|x)I.

この設定は、係数のOLS推定量、誤差分散の不偏推定量、残差、およびこれらすべてのランダム量のモーメント(設計行列の説明変数を条件とする)を取得するのに十分です。これらの量の完全な条件付き分布を取得することはできませんが、が大きく、制限動作にいくつかの追加の仮定が置かれている場合、漸近分布にアピールできます。さらに進むには、エラーベクトルに特定の分布形式を仮定することが一般的です。xnx

正規誤差:ホモスケスティクス線形回帰モデルのほとんどの処理では、誤差ベクトルが正規分布していると仮定しています。

ε|xN(0,σ2I).

この追加の仮定は、係数のOLS推定量がモデルのMLEであることを保証するのに十分です。また、係数推定量と残差が正規分布し、誤差分散の推定量がスケーリングされたカイ2乗分布(すべて設計マトリックスの説明変数を条件とする)。また、応答ベクトルが条件付きで正規分布することも保証します。これにより、分析の説明変数を条件とする分布結果が得られ、信頼区間と仮説検定の構築が可能になります。アナリストが応答の周辺分布に関する調査結果を作成する場合は、さらに進んで、モデル内の説明変数の分布を想定する必要があります。

共同通常の説明変数:ホモセダスティック線形回帰モデルの一部の処理は、標準の処理よりもさらに進んでおり、固定の説明変数を条件としません。(おそらくこれは、回帰モデリングから多変量解析への移行です。)この種類の最も一般的なモデルは、説明ベクトルがIIDジョイント正規ランダムベクトルであると想定しています。まかせである番目説明ベクトル(たちが持っているデザイン行列の行目)。 i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

この追加の仮定は、応答ベクトルがわずかに正規分布することを保証するのに十分です。これは強力な仮定であり、通常、ほとんどの問題では課されません。述べたように、これはモデルを回帰モデリングの領域外で多変量解析に取り入れます。


1
私はあなたがより強い仮定を一つずつ導入し、その意味を説明する方法を非常に洞察力に富んでいると思いました。
ColorStatistics
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.