なぜ必要ないのに、線形回帰の正規分布誤差項(および同次分散性)にそれほど注意を払うのですか?


52

残差の非正規性および/または不均一分散性がOLSの仮定に違反していると誰かが言うのを聞くたびにイライラするでしょう。OLSモデルのパラメーターを推定するには、これらの仮定はどちらもガウスマルコフの定理では必要ありません。OLSモデルの仮説検定で、これがどのように重要であるかがわかります。これらのことから、t検定、F検定、およびより一般的なWald統計のきちんとした公式が得られるからです

しかし、それらなしで仮説検定を行うことはそれほど難しくありません。等分散性だけを落とすと、ロバストな標準誤差とクラスター化された標準誤差を簡単に計算できます。正規性を完全に落とす場合は、ブートストラップを使用し、エラー項、尤度比、およびラグランジュ乗数検定の別のパラメーター仕様を指定できます。

多くの人がそもそも満たす必要のない仮定に苦しんでいるのを見るので、このように教えるのは残念です。

より堅牢な手法を簡単に適用できる能力があるのに、なぜこれらの仮定にそれほど重点を置いているのでしょうか?重要なものが欠けていますか?


2
懲戒処分のようです。私の経験では、極端な場合、計量経済学のテキストはほとんどの場合、各仮定が購入する推論をカバーしており、心理学のテキストはトピックについて何も言及していないようです。
共役

12
ただし、OLSが青になるには同相性が必要です。
モモ14

4
私はあなたが正しいと思います、それらの仮定は過度の注意を受けます。正常性または条件付きホモ分散性の失敗。内生性や不十分に指定された機能的形態ほど、ほとんどの開業医の推論目標に有害ではありません。
CloseToC 14

2
@CloseToCこれは非常に良い点です。多くの場合、回帰モデルの統計的専門性について非常に心配するため、全体像を忘れてしまいます...私のモデルは正しく指定され、外因性ですか?これは、モデルを作成するときに自分自身に尋ねる主要な質問の1つとして繰り返し強調する必要があります。
ザカリーブルーメンフェルト14

回答:


25

計量経済学では、非正規性は古典正規線形回帰モデルの条件に違反し、不均一分散性はCNLRと古典線形回帰モデルの両方の仮定に違反すると言います。

しかし、「... OLSに違反する」と言うものも正当化される:名前普通の最小二乗は、直接ガウスから来て、本質的に意味し、通常のエラー。言い換えれば、「OLS」は最小二乗推定(これははるかに一般的な原理とアプローチです)の頭字語ではなく、CNLRの頭文字です。

OK、これは歴史、用語、意味論でした。OPの質問の核心を次のように理解しています。「理想が存在しない場合の解決策を見つけたのに、なぜ理想を強調すべきなのか」(CNLRの仮定、「既製」の優れた最小二乗推定特性を提供するという意味で理想的であり、漸近的な結果に頼る必要がないためです。エラーが正常な場合、OLSは最尤であることに注意してください)。

理想としては、教えることを始めるのに良い場所です。これは、あらゆる種類の科目を教える際に常に行うことです。「単純な」状況は「理想的な」状況であり、現実の生活や実際の研究で実際に遭遇する複雑さから解放され、明確な解決策は存在しません

そして、これは私がOPの投稿について問題があると思うものです:彼は堅牢な標準エラーとブートストラップについて、「優れた代替」であるかのように書いています。

「..人々が会う必要がないという仮定」

どうして?状況に対処するいくつかの方法があります。もちろん、ある程度の妥当性がある方法ですが、理想からはほど遠いでしょうか?ブートストラップおよび不均一-堅牢な標準誤差はありません、彼らは確かに、彼らは歴史の本にCLRとCNLRを送信し、支配的なパラダイムとなっているだろうし、-ifソリューション。しかし、そうではありません。

したがって、重要だと思われる推定器のプロパティを保証する一連の仮定から開始します(望ましいものとして指定されたプロパティが実際にあるべきかどうかは別の議論です)。これらの仮定の欠如に対処するために私たちが見つけた方法で完全に相殺できない結果。科学的に言えば、「問題の真実への道を歩むことができる」という感覚を伝えることは、本当に危険です。なぜなら、単純にできないからです。

したがって、それらは問題に対する不完全な解決策のままであり、物事を行うための代替および/または間違いなく優れた方法ではありません。したがって、まず問題のない状況を教え、次に考えられる問題を指摘し、次に考えられる解決策について話し合う必要があります。それ以外の場合は、これらのソリューションを実際にはないステータスに引き上げます。


うーん、もしそれがあなたが意図していたことなら、あなたは「十分に証明された」ことを試みるかもしれません。
GUNG -復活モニカ

@gungいいえ、いいえ、メソッドは数学的な意味で「完全に証明」されていますが、実際に何を提供するかについての完全な証明ではありません(漸近性に関するこの「小さな」詳細、およびその値は何ですか)。あなたの訂正は正しいものでした。
アレコスパパドプロ14

22

クラスで時間を割いて、最初に回帰モデルを導入してブートストラップや他のテクニック(すべての仮定、落とし穴などを含む)について議論した場合、正規性について話す必要はないことに同意します。および等分散性の仮定。しかし、実際には、回帰が最初に導入されたとき、他のすべてのことについて話す時間がないので、学生に保守的になり、必要でないかもしれないものをチェックして統計学者に相談する(または別の統計を取る)クラスまたは2または3、...)仮定が成り立たない場合。

...の場合を除き、これらの仮定は重要ではないと学生に伝えると、ほとんどの場合、重要ではない部分だけが重要であり、重要ではない部分のみが記憶されます。

不等分散のケースがある場合、はい、まだ最小二乗線を当てはめることができますが、それでも「最良」の線ですか?または、その場合の線の合わせ方について、より多くの経験/訓練を受けた人に相談する方が良いでしょうか。最小二乗線に満足していても、予測値の値ごとに予測のプロパティが異なることを認識してはいけませんか?したがって、不等分散のチェックは、tests / intervals / etcに必要ない場合でも、後の解釈に適しています。私たちが使用していること。


特に重要な時間的制約があるというあなたの発言を理解し、感謝します。私の所属機関で私が見ているのは、学生がこれらの仮定に苦しんでいるときに、しばしば必要なコンサルティングを受けられない、または受けられないということです。そのため、モデルの仮定をあてはめることに基づいてプロジェクトを選択したり、古典的なモデルを不適切に使用して仮定に違反したりすることになります。私は、より堅牢なテクニックを教えることで、学生はそこでの選択肢の制限が少なくなり、したがって、彼らが実際に情熱を注いでいるプロジェクトを追求することができると主張します。
ザカリーブルメンフェルト14

13
教えるときは常に理想的なケースから始めて、それからあらゆる種類の合併症に入ります。博士レベルの経済学では、彼らはあらゆる種類の奇妙なことを教えますが、そこに到達するには時間がかかります。ほとんどの人が修士課程レベルのどこかで電車を降りるのは教育の問題だとは思いません。実際には、大きな問題は中途半端な「データサイエンティスト」による害虫のis延であり、統計Rのパッケージを左右に適用する統計の基礎知識がほとんどないため、彼らが何をして苦労しているのかはわかりません。出力の意味を理解します。
アクサカル14

@Aksakal、これらの多数の自信過剰で資格のないアナリストを正確にどこで見ますか?私が頻繁に遭遇することはほぼ反対だからです。認知された専門家から最初に承認されない限り、人々は学んだ技術を試すことを恐れています。このサイトだけで、よりベテラン/建設的な質問が "場合はどうなるでしょう...」
rolando2

18

1)推定するだけの人はほとんどいません。通常、推論-CI、PI、テスト-が目的であるか、少なくともその一部です(比較的非公式に行われる場合もあります)

2)ガウスマルコフの定理のようなものは必ずしもあまり役に立たない-分布が正規から十分に遠い場合、線形推定量はあまり使用されません。線形推定器が非常に優れていない場合、青を取得しても意味がありません。

3)サンドイッチ推定器のようなものには、多数の暗黙的なパラメーターが含まれます。大量のデータがあれば大丈夫かもしれませんが、多くの人はそうではありません。

4)予測区間は条件付き分布の形状に依存します。これには、観測値での分散に対する適切な処理が含まれます。詳細をPIで簡単に振り払うことはできません。

5)多くの場合、ブートストラップのようなものは非常に大きなサンプルに便利です。彼らは時々小さなサンプルで苦労します-そして、適度なサイズのサンプルでさえ、私たちはしばしば実際のカバレッジ特性が広告されたようなものではないことを発見します。

つまり、人々が望む万能薬のようなものはほとんどありません。それらのすべてに場所があり、(たとえば)正規性が必要ではない場合、および正規性、一定の分散などを必ずしも必要とせずに推定と推論(テストとCI)を合理的に実行できる場合が確かにたくさんあります。

しばしば忘れられているように思われることの1つは、代わりに行うことができる他のパラメトリックな仮定です。多くの場合、人々はかなり適切なパラメトリックな仮定を立てる状況について十分に知っています(たとえば...条件付き応答は平均にほぼ比例するsdで右に歪む傾向があるということは、たとえばガンマモデルまたは対数正規モデルを検討する可能性があります); 多くの場合、これは一度に不均一分散性と非正規性の両方に対処する場合があります。

非常に便利なツールはシミュレーションです-データが発生した可能性が非常に高い状況でツールのプロパティを調べることができるため、それらのケースで優れたプロパティを持っているという安心する知識で使用することができます(または、期待どおりに機能しないことがあります)。


「めったに推定したくない人はいません」-企業金融と経済学では、特定の変数の影響を引き出すために多くの人が推定します。著者は信頼区間さえ見ていませんが、もちろん通常の仮定の下で重要性に気づいているたくさんの論文を読みました。
アクサカル14

6
@Aksakalええ、はい、しかし、彼らが標準誤差、t値、p値などに注意を払っているなら...私の推測では、彼らは推定したくないだけです。正式に間隔をテスト/構築するかどうかに関係なく、そのような他のことを-たとえ非公式に-意味のあるものにするためには、そもそも意味を持たなければなりません。
Glen_b
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.