従属変数の正規性=残差の正規性？

この問題はいつもitsい頭を抱えているようで、私は統計を自分自身で理解するために（そして正気！）首を切り落とそうとしています。

一般的な線形モデルの仮定（t検定、ANOVA、回帰など）には「正規性の仮定」が含まれますが、これが明確に記述されることはめったにありません。

私は、多くの場合、単に「正規性の仮定が」それぞれに適用されることを示す統計の教科書/マニュアル/などに遭遇グループ（すなわち、カテゴリX変数）、そして我々は我々が正常からの逸脱を調べる必要があり、各グループを。

質問：

仮定はY の値またはYの残差を参照していますか？
特定のグループでは、Y 値の強い非正規分布（たとえば、歪んだ）を持つことができますが、Y の残差のほぼ（または少なくともより正規の）分布ですか？

他の情報源は、仮定がモデルの残差に関するものであると説明しています（t検定/ ANOVAなどのグループがある場合）。これらの残差の正規性の逸脱を調べる必要があります（つまり、実行）。
以下のための残差の正規んモデルはのための残差の正規性を意味するものでグループを？言い換えれば、モデルの残差を調べるだけでよい（多くのテキストの指示に反する）。

これを状況に当てはめるために、この架空の例を考えてみましょう。
- 2つの母集団（X）間のツリーの高さ（Y）を比較します。
- 1つの母集団では、Yの分布は強く右に歪んでいます（つまり、ほとんどの木が短く、背が非常にわずかです）。
- 身長は、正規分布の母集団で全体的に高くなっています（「本当の」違いがある可能性を示唆しています）。
- データの変換は、最初の母集団の分布を実質的に改善しません。
まず、根本的に異なる高さ分布が与えられたグループを比較することは有効ですか？
ここで「正常性の仮定」にアプローチするにはどうすればよいですか？1つの母集団のリコールの高さは正規分布ではありません。両方の母集団の残差を個別に調べるか、モデルの残差を調べますか（t検定）？

返信で質問を番号で参照してください。経験により、人々は迷子になったり、簡単に追跡できたりすることがわかりました（特に私です！）。私は統計学者ではないことに注意してください。ただし、統計についてはかなり概念的な（つまり、技術的ではない！）理解があります。

PS、私はアーカイブを検索し、私の理解を強固にしていない次のスレッドを読みました。

normal-distribution residuals normality-assumption

— DeanP
ソース

「質問1）仮定はYの値またはYの残差を参照していますか？」-厳密に言えば、どちらも、2番目はチェックするものですが。正常であると想定されるのは、観測不能なエラー、または予測子の各組み合わせでのY の条件付き分布です。Yの無条件の分布は、正規であるとは想定されていません。

— Glen_b

+1この問題が発生する（多くの）スレッドのいくつかを整理および統合する努力をしてくれてありがとう。それは間違いなくFAQです。

— whuber

この質問に感謝したいだけです。主題に関しては、それが対処されており、それがいかにうまく組織化され、リンクされているかです。あなたがずっと前にこれを聞いたことは知っていますが、それは非常に良い質問です！

— うーん

回答:

理解に役立つ1つのポイント：

場合正規分布され、そして定数は、次いで、 $x$ $a$ $b$ も正規分布しています（ただし、平均と分散が異なる可能性があります）。 $y=\frac{x-a}{b}$

残差はy値から推定平均を引いたものであるため（標準化された残差も標準誤差の推定値で除算されます）、y値が正規分布している場合、残差も同様です。そのため、理論や仮定について話すとき、どちらが話しているかは関係ありません。

したがって、質問については次のようになります。

はい、両方
いいえ（ただし、個々のy値は、グループ化された場合に非正常に見えるようにするさまざまな手段を備えた法線から取得されます）
残差の正規性はグループの正規性を意味しますが、場合によってはグループごとに残差またはy値を調べることができます（プールはグループ内で明らかな非正規性を不明瞭にする場合があります）グループごとに決定しますが、すべて一緒に伝えることができます）。
これは、比較の意味、サンプルサイズの大きさ、および「近似」に対する感情に依存します。正規性の仮定は、結果のテスト/間隔にのみ必要です。モデルを適合させ、正規性の有無にかかわらずポイント推定を記述することができます。中央極限定理は、サンプルサイズが十分に大きい場合、残差がそうでなくても推定値はほぼ正常になると言います。
それはあなたが答えようとしている質問とあなたがどの程度「おおよそ」満足しているかに依存します。

理解することが重要な別のポイント（ただし、学習でしばしば混同される）は、ここに2種類の残差があることです：観測値と真の理論モデルとの差である理論残差、および差である観測残差観測値と現在適合しているモデルからの推定値の間。理論上の残差はiid normalであると仮定します。観測された残差はi、i、または正規分布ではありません（ただし、平均は0です）。ただし、実際の目的では、観測された残差は理論上の残差を推定するため、診断には依然として有用です。

— グレッグ・スノー
ソース

エラーと残差の詳細については、私はそれがウィキ上でこの記事を読むために便利だと思うen.wikipedia.org/wiki/Errors_and_residuals

— Lil'Lobster

y - \hat{y}

$y - \hat y$

y

$y$

\hat{y}

$\hat{y}$

-

$-$

Q1（Q2への回答で認識されている）：明らかに、Yではなく残差です。観測値間で共変量が異なる場合、残差が正常であっても、バイモーダルな周辺分布を簡単に得ることができます。したがって、Yを単純に見ることはできず、残差だけを見ることができます。

— ビョルン

@Bjorn、これは良い説明です。y変数は正常で、xを条件とするため、生のy値は法線の混合であり、y値のみのプロットは、xの条件付きであるという仮定に適合していても、正常性を示さない場合があります。診断には、通常、残差を使用します（条件部分がほとんど削除されているため）。（条件付き）正規性の仮定は、理論的残差とy値の両方を指します。

— グレッグスノー

短い答え：

残差
いや
両方のアプローチには長所と短所があります
何故なの？手段の代わりに中央値を比較する方が理にかなっています。
あなたが私たちに言ったことから、正常性の仮定はおそらく違反されています

長い答え：

前提は、従属変数（y）が正規分布しているが、グループごとに平均が異なることです。結果として、yの分布だけをプロットすると、標準のベル型の正規曲線とは非常に異なって見えることがあります。残差は、yの分布を表し、これらの差は「フィルターで除去」されています。

または、各グループのyの分布を個別に見ることができます。これにより、グループ全体の平均の差も除外されます。利点は、この方法で各グループの分布に関する情報も取得できることです。これは、あなたのケースでは関連があると思われます。欠点は、各グループに含まれる観測値が、残差を見たときに得られる結合データセットよりも少ないことです。さらに、たとえば、モデルに多くの予測変数を入力したり、モデルに（準）連続予測変数を入力したために、グループが多数ある場合、グループを有意義に比較することはできません。したがって、モデルが1つのカテゴリカル予測変数のみで構成され、各グループの観測値の数が十分に大きい場合、各グループのyの分布を個別に検査することは意味があります。

— マールテン・ブイ
ソース

厳密には、残差は未知の未知のエラーまたは外乱の推定値に過ぎないため、原則として正規性が正しい場合でも、実際には正確に正常な残差を取得することはできません。さらに重要なことは、これらの方法では、エラーの正常性が最も重要でない仮定です！

— ニックコックス

@NickCox（1）は、両方のカウントに合意

— マールテンビュイ

$Y$ $X$
$X$ $Y$

$e$ $Y$ $\epsilon$ $X$
$Y$ $Y|X-N(X\beta,\sigma^2)$
$X$ $Y$ $Y|X$

$Y$ $X$

質問3）
正規性を必要とする線形モデルを使用するための重要なことは、これがグループ内にあるかどうかに関係なく、正常ではない残差はモデルがデータに適合しない可能性がある重要な指標であることです。
ANOVAを実行している場合、当然、全体的な残差は正常である必要はありません（または、ホモセダスティックである必要はありません）。ただし、回帰では、全体的に正常な残差で終わるモデルを使用する方が適切です。そうでない場合、インターバル推定器とテストは間違っています。これは、特定の自己相関または欠落した変数バイアスの場合があります。モデルが100％正しい場合（必要に応じて構造的な破損や重み付けを含む）、0を中心としても、通常の誤差項を仮定するためにそれほどフェッチされません。実際には、問題はしばしば次のようになります。十分な大きさですか？明確な答えはありませんが、100％正しいアプローチの場合、すべての残差は正常です。

質問4＆5）
比較する意味によって異なります。正規誤差項を仮定すると、2つの異なる分布の仮定に基づいてテストできます。回帰のGLS推定を使用して、さまざまな分布パラメーターを説明することもできます-適切なモデルがある場合...そして、グループ自体がインジケーター/バイナリ変数として機能すると思いますか？
その場合、おそらく残差の分布が正常であると推論するのは非常に難しいでしょう。結果として、データを処理することはできますが、通常のOLSに基づいていないことになります。
ただし、データをどのように処理するかによって異なります。

$Y|X$

良いアプローチは、結果の分布に焦点を合わせて通常のOLSの代数を調べることだと思います。

— IMA
ソース