なぜ残差の正規性は、回帰直線を推定するために「非常に重要」なのですか?


21

Gelman and Hill(2006)はp46に次のように書いています。

一般的に最も重要でない回帰の仮定は、エラーが正規分布しているということです。実際、(個々のデータポイントの予測と比較して)回帰直線を推定する目的では、正規性の仮定はほとんど重要ではありません。したがって、多くの回帰テキストとは対照的に、回帰残差の正常性の診断はお勧めしません。

ゲルマンとヒルはこの点についてこれ以上説明していないようです。

ゲルマンとヒルは正しいですか?その場合、次に:

  1. なぜ「まったく重要」なのですか?なぜ重要でもまったく無関係でもないのですか?

  2. 個々のデータポイントを予測するときに残差の正規性が重要なのはなぜですか?

ゲルマン、A。、&ヒル、J。(2006)。回帰およびマルチレベル/階層モデルを使用したデータ分析。ケンブリッジ大学出版局

回答:


21

推定正規正確な仮定ではありませんが、主要な考慮事項は、効率になります。多くの場合、優れた線形推定器がうまく機能し、その場合(Gauss-Markovによる)LS推定値は、これらのことの大丈夫です。(尾が非常に重い、または非常に軽い場合は、何か他のものを考慮するのが理にかなっているかもしれません)

テストとCIの場合、正常性が想定されますが、通常はそれほど重要ではありません(ここでも、テールが実際に重くも軽くもないか、おそらくそれぞれの1つでない限り)。テストおよび典型的なCIの小さなサンプルは、名目上の特性に近い傾向があり(主張された有意水準またはカバレッジからそれほど遠くない)、うまく機能します(典型的な状況またはCIが代替よりも広すぎない合理的な能力)-移動するにつれて通常の場合からさらに電力が問題になる可能性があり、その場合、大きなサンプルでは一般に相対効率が改善されないため、効果サイズが比較的良い電力のテストで電力が中程度の場合、それは非常に悪い可能性があります正常性を前提とするテスト用。

テストのCIと有意水準の名目上の特性に近いこの傾向は、いくつかの要因が一緒に作用するためです(その1つは、多くの値が含まれている限り、変数の線形結合が正規分布に近い傾向があることです。それらのいずれも全分散の大部分に寄与しません)。

ただし、通常の仮定に基づいた予測区間の場合、区間の幅は単一の値の分布に強く依存するため、正規性は比較的重要です。ただし、その場合でも、最も一般的な間隔サイズ(95%間隔)については、多くのユニモーダル分布が平均の約2sds内でその分布の95%に非常に近いという事実は、通常の予測間隔の合理的なパフォーマンスをもたらす傾向があります分布が正規でない場合。[これは、50%間隔または99.9%間隔など、より狭い間隔またはより広い間隔にあまりうまくいきません。]


「変数の線形結合が正規分布に近い傾向がある」。-私はこれが中央極限定理に関係していないと思います。それは...ですか?そうでない場合、このステートメントはどのような「定理」ですか?
ハイゼンベルク

1
@Heisenbergこれは、特定のバージョンのCLTへの接続があります、はい。(LyapunovおよびLindebergのバージョンはこちらをご覧ください)。定理を有限サンプルに適用する場合は、Berry-Esseen定理のバージョンを検討しています。しかし、この声明は定理よりもむしろ観察(したがって、「傾向」という言葉の使用)を目的としていました。
Glen_b -Reinstate Monica

7

2:個々のデータポイントを予測する場合、その予測の信頼区間は、残差が正規分布していると仮定します。

これは、信頼区間に関する一般的な仮定とそれほど違いはありません。有効であるためには、分布を理解する必要があり、最も一般的な仮定は正規性です。たとえば、サンプル平均の分布が正規性に近づくため、平均の周りの標準的な信頼区間が機能します。したがって、zまたはt分布を使用できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.