OLSよりも望ましいMLEの特性は何ですか?


8

この質問は、どこかでここで回答されたと確信できるほど根本的なようですが、私はそれを見つけていません。

回帰の従属変数が正規分布している場合、最大尤度と通常の最小二乗が同じパラメーター推定を生成することを理解しています。

従属変数が正規分布していない場合、OLSパラメーター推定はMLEと同等ではなくなりますが、それらは依然として最良(最小分散)線形不偏推定(青)です。

それでは、OLSが提供するもの(BLUEであること)を超えてMLEを望ましいものにする特性は何ですか?

言い換えると、OLS推定が最尤推定であると言えない場合、何を失うのですか?

この質問をやる気にさせるために、明らかに非正規の従属変数が存在する場合に、なぜOLS以外の回帰モデルを選択するのか疑問に思っています。


モデルに必要なものに依存します。計量経済学者は通常、サンプル内の周辺効果の推定値の平均を求めており、OLSはこれらを提供します(追加の分離可能性の仮定に煩わされない限り)。ただし、根本的な現象の他の機能を説明するモデルが必要な場合は、OLSも機能しません。たとえば、サンプルからの予測に関心がある場合や、不確実性のより良い推定が必要な場合があります。
generic_user 2017年

目的関数は二乗誤差を使用するため、OLSは外れ値に対してより敏感であることを言及する価値があります(したがって、偏差が極端になるほど問題が悪化します)。これが、M推定などの「ロバスト回帰」手法がOLSではなくMLEを使用する理由です。
HEITZ 2017年

エラー項が正常でない場合、係数のt検定およびF検定は信頼できない可能性があります。極端な歪度と極端な外れ値は特に問題です。実際問題として、これにより正しいモデル仕様が難しくなり、(仕様のミスによる)係数推定値にバイアスが生じる可能性があり、サンプルのパフォーマンスが低下します。
david25272 2017年

回答:


7

正規性から十分に離れると、すべての線形推定量が任意に悪くなる可能性があります

悪いロットを最大限に活用できる(つまり、最良の線形不偏推定)ことができることを知ることは、それほど慰めにはなりません。

適切な分布モデルを指定できる場合(つまり、摩擦があります)、可能性を最大化することは両方とも、直感的に直接アピールすることになります。つまり、実際に見たサンプルを(「適切な改良を加えて)つまり、連続的なケースの場合)と、理論的にも実用的にも役立つ多数の非常にきちんとした特性(たとえば、Cramer-Raoの下限との関係、変換時の等分散、尤度比検定との関係など)。これは、たとえばM推定の動機になります。

モデルを指定できない場合でも、MLが応答の条件付き分布の全体的なエラーによる汚染に強いモデルを構築することができます。これにより、ガウシアンでの効率はかなり良好ですが、悲惨な可能性が回避されます。任意の大きな外れ値の影響。

[たとえば、影響力のある外れ値の影響に対するロバスト性も必要なので、これは回帰に関する唯一の考慮事項ではありませんが、これは良い最初のステップです]


最良の線形推定量を使用した場合の問題のデモンストレーションとして、回帰用の勾配推定量のこの比較を検討してください。この場合、各サンプルには100個の観測値があり、xは0/1、真の勾配は、誤差は標準コーシーです。シミュレーションは1000セットのシミュレーションデータを受け取り、勾配の最小二乗推定( "LS")と、この状況で使用できるいくつかの非線形推定量を計算します(コーシーではどちらも完全に効率的ではありませんが、どちらも妥当です)-1つはラインのL1推定量( "L1")で、2つ目はxの2つの値での位置の単純なL推定値を計算し、それらを結ぶラインに適合します( "LE")。12

最小二乗勾配推定器のパフォーマンスと、この状況に適した勾配のロバストからグロスエラーまでの推定値を比較する箱ひげ図

図の上部は、各シミュレーションの1000の勾配の推定値の箱ひげ図です。下の部分は、その画像の中央にある1パーセント(おおまかに、上のプロットではかすかなオレンジグレーのボックスでマークされています)なので、詳細を確認できます。最小二乗法の傾きは-771から1224の範囲であり、下限と上限の四分位数は-1.24と2.46です。LS勾配の誤差は、10%以上の時間でした。2つの非線形推定器ははるかに優れています-互いにほぼ同じように実行されます。どちらの場合も、1000の勾配推定値のいずれも、真の勾配から0.84を超えておらず、勾配の絶対誤差の中央値は、それぞれ0.14のボールパークにあります(vs 1.86最小二乗推定量の場合)。この場合のLSスロープのRMSEは、L1およびLE推定量の223および232倍です(それは

ここで使用された可能性のある他の数十の合理的な推定量があります。これは、最良/最も効率的な線形推定量でさえ役に立たない場合があることを示すための簡単な計算でした。勾配のML推定器は、ここで使用される2つのロバスト推定器よりも(MSEの意味で)パフォーマンスが良くなりますが、実際には、影響力のある点に対してある程度のロバスト性を持つものが必要です。


よく言った。それは非常に理にかなっています。従属変数が非正規であるにもかかわらず対称である場合、線形推定量は依然として非常にうまく機能すると思われます(おそらく非線形推定量よりも優れています)。私の直感はここで正しいですか?
Great38

1
いいえ、線形推定を救うには対称性では不十分です。たとえば、コーシーのエラーを考えてみましょう。適切な推定量はいくつもありますが、それらはすべて意図された意味で非線形です。
Glen_b-モニカを2017

(潜在的に恣意的に悪いパフォーマンスの)この問題が対称誤差分布に適用されることを示すために、少しシミュレーションを行いました-私の編集を参照してください。このシミュレーションは、対称誤差分布のためのものです。その場合、どのように悲惨な最小二乗が起こり得るかがわかります。確かに、重大なエラーが発生する可能性のある何かによる汚染のごく一部でさえ、問題です。青色であることは、まったく価値がない場合があります。エラーの動作について何か知っている場合は、その知識を使用することをお勧めします... ctd
Glen_b -Reinstate Monica

ctd ...(MLを介して、たとえば、誤った場合に少し堅牢性を追加しても、結果のM-推定量の影響関数の境界を設定するなど)および何もわからない場合-想定するのに十分ではありません可能性はまったくありません。線形推定量が優れた選択肢であると想定する場合、必ずしも潜在的なリスクに値するわけではありません。私は「最小二乗を使用しない」とは言いません(かなり頻繁に使用していますが、パフォーマンスの低下の可能性を強く認識してきました)。ただし、BLUE自体が必ずしも適切な選択肢であるとは限りません。
Glen_b-モニカを2017

1

正規分布データの場合、OLSはMLEに収束します。これは(その点で)青色のソリューションです。正常から外れると、OLSは(ガウスマルコフの定理の観点から)もはやBLUEではありません。これは、OLSがSSRを最小化するように見えるのに対して、GMTが最小SEの観点からBLUEを定義するためです。詳細はこちら

一般的に言えば、MLEが存在する場合(「MLE障害」またはMLEが存在しない場合はグーグル)、分散を最小化するか、偏りをなくすために(したがって、他の推定量と比較できるように)調整する方が簡単です。 。


3
従属変数OLSはBLUEするために、通常である必要はありません。en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem
Great38

1
...さらに、正規分布データでは、OLS = MLEであり、それに収束しません。2番目の段落も非常に不明確です... MLEを調整するのは何よりも簡単ですか?
jbowman 2017年

OLSは正常外ではまだ青です。問題は、BLUE(特にL)自体が必ずしも有用であるとは限らないことです。
Glen_b-2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.