最尤推定—多くの場合、バイアスがかかっているにもかかわらず使用される理由


25

最尤推定では、バイアスのかかった推定量が得られることがよくあります(たとえば、サンプル分散の推定値はガウス分布に対してバイアスがかけられます)。

それで何がそんなに人気があるのでしょうか?なぜそんなに正確に使用されるのですか?また、特に代替アプローチであるモーメント法よりも優れている点は何ですか?

また、ガウスでは、MLE推定量を単純にスケーリングすることでバイアスが偏らないことに気付きました。なぜこのスケーリングは標準的な手順ではないのですか?つまり、なぜMLE計算の後、推定量を不偏にするために必要なスケーリングを見つけるのが日常的ではないのですか?標準的な方法は、スケーリング係数がよく知られているよく知られたガウスの場合を除いて、MLE推定値の単純な計算のようです。


11
MLには、モーメントの方法だけでなく、多くの選択肢があります。ちなみに、偏った推定量を生成する傾向もあります。代わりに尋ねたいのは、「なぜ誰も偏りのない推定量を使用したいのか」ということです。この問題の調査を開始する良い方法は、バイアスと分散のトレードオフを検索することです。
whuber

7
whuberが指摘したように、偏りがないという本質的な優位性はありません。
西安

4
@whuberは「なぜ偏った推定量を使用したいのか」という意味だと思います。偏りのない推定量が妥当なものであると誰かを納得させるのに、多くの作業は必要ありません。
クリフAB

5
en.wikipedia.org/wiki / ...を参照してください。唯一の偏りのない推定値は、使用したい推定値ではないことは確かです。
Scortchi -復活モニカ

4
@Cliff私は、より挑発的で、より神秘的な形で質問をするつもりでした。この背後に潜むのは、推定量の品質を評価する方法がたくさんあり、それらの多くはバイアスとは何の関係もないという考えです。その観点から、誰かが公平な推定量を提案する理由を尋ねることは最も自然です。この観点からの詳細は、glen_bの回答をご覧ください。
whuber

回答:


18

不偏は、それ自体が必ずしも特に重要というわけではありません。

非常に限られた状況のほかに、最も有用な推定量は偏っていますが、それらは得られています。

2つの推定量が同じ分散を持っている場合、偏りのあるものより偏りのないものを好むという議論を容易に立てることができますが、それは異常な状況です(つまり、不偏性、セトリスパリビスを合理的に好むかもしれませんが、それらの厄介なセトリスパリブスはほとんどありませ)。

より一般的には、不偏性が必要な場合は、それを得るためにいくらかの分散を追加することになります。そして、質問はなぜそうするのでしょうか?

バイアスとは、推定値の期待値が平均してどれだけ高くなるか(負のバイアスが低すぎることを示す)です。

小さなサンプル推定量を検討しているとき、私はそれをあまり気にしません。私は通常、この場合に推定器がどれだけ間違っているかにより興味があります -右からの典型的な距離...二乗平均誤差または平均絶対誤差のようなものがより理にかなっています。

したがって、低分散と低バイアスが必要な場合は、最小平均二乗誤差推定量を求めることは理にかなっています。これらはめったに偏らない。

バイアスと偏りのないことは知っておくと便利な概念ですが、同じ分散の推定量のみを比較するのでない限り、探すのに特に役立つプロパティではありません。

ML推定量は低分散になる傾向があります。通常、これらは最小のMSEではありませんが、多くの場合、偏りのないように変更するよりもMSEが低くなります(まったくできる場合)。

例として、正規分布からサンプリングするときに分散を推定することを検討してください(実際、分散のMMSEは常により大きい分母)。σ^MMSE2=S2n+1σ^MLE2=S2nσ^Unb2=S2n1n1


1
+1。あなたの2番目の前の段落の直観(またはおそらく背後にある理論)はありますか?ML推定量が低分散になる傾向があるのはなぜですか?なぜ彼らはしばしば不偏推定量よりも低いMSEを持っているのですか?また、分散のMMSE推定量の表現を見て驚いています。どういうわけか私は前にそれに遭遇したことがない。なぜめったに使用されないのですか?そして、収縮と関係がありますか?偏りのない状態からゼロに向かって「収縮」しているように見えますが、多変量コンテキスト(ジェームズシュタインの線に沿って)でのみ収縮について考えることに慣れているので、私はそれで混乱しています。
アメーバは2015

1
@amoeba MLEは一般に十分な統計量の関数であり、少なくとも漸近的に最小の不偏バイアスであるため、大きなサンプルでは低分散であり、通常は限界でCRLBを達成することが期待されます。多くの場合、これは小さなサンプルに反映されます。MMSE推定量、分散を減らすため、一般にゼロに向かって縮小します(したがって、通常、小さな収縮によってわずかに0に向かうバイアスによってMSEが減少します)。
Glen_b -Reinstateモニカ

@Glen_b、素晴らしい答え(私はそれに戻ってきます)。あなたはのための説明や参照なければなりませんσ 2 MMSE = S 2をは最小MSE推定量ですか?σ^MMSE2=S2n+1
リチャードハーディ

また、それは分散のML推定量が最小分散推定量ではないことを意味しますか?そうでない場合、最小MSE推定量は、MLEと不偏推定量の加重平均(正の重み付き)になりますが、現在はその範囲外です。あなたがそれが理にかなっていると思うならば、私はこれを別の質問として尋ねることができます。
リチャードハーディ

1
MSEに関するWikipediaの記事で全体の派生を見つけたので、それがすべて説明されていると思います。
リチャードハーディ

16

MLEはモデルと手元のデータが与えられると、モデルパラメーターの最も可能性の高い値を生成ます。これは非常に魅力的な概念です。値のセット全体で最も観測される可能性が高いデータを選択できるのに、観測されるデータの確率低くなるパラメーター値を選択するのはなぜですか?この機能を公平性のために犠牲にしますか?答えが常に明確であるとは言いませんが、MLEの動機は非常に強く直感的です。

また、私が知る限り、MLEはモーメント法よりも広く適用できる可能性があります。MLEは潜在変数の場合により自然に見えます。たとえば、移動平均(MA)モデルまたは一般化された自己回帰条件付き異分散(GARCH)モデルはMLEによって直接推定できます(直接、尤度関数を指定して最適化ルーチンに送信するだけで十分です)モーメント法によるものではありません(ただし、モーメント法を利用した間接的な解決策が存在する場合があります)。


4
+1。もちろん、Gaussian Mixture Models(無制限の尤度)など、最も可能性の高い推定値を望まない場合がたくさんあります。一般的に、MLEの直観に役立つ素晴らしい答えです。
クリフAB

3
(+1)しかし、「最も可能性の高い」パラメーター値の定義を、データが非常に明確である可能性が最も高いものとして追加する必要があると思います。反復サンプリングでの長期的な動作とは無関係な推定器のその他の直感的に望ましい特性には、モデルのパラメーター化方法に依存しないこと、および真のパラメーター値の不可能な推定値を生成しないことが含まれます。
Scortchi-モニカの復職

6
「最も可能性が高い」として「最も可能性が高い」と読まれるリスクがまだあると思います。
Scortchi -復活モニカ


2
@dsaxton:統計学者は、データを与えられたパラメーター値の尤度を、パラメーター値を与えられたデータの確率とほぼ一世紀にわたって区別しています- フィッシャー(1921)「相関の可能性のあるエラーについて」、Metron1、pp 3-32Pawitan(2013)、In All Likelihood:Statistics Modeling&Inference Using Likelihood-そのため、通常の使用法では同義語ですが、異議を唱えるのは少し遅れているようです。
Scortchi-モニカの復職

12

実際には、公平な推定値を得るために、最尤推定値のスケーリングがあり、多くの推定問題における標準的な手順。その理由は、mleは十分な統計量の関数であるため、十分な統計量に基づいて不偏推定量を見つけることができる場合、Rao-Blackwell定理により、最小分散不偏推定量が得られるためです。

あなたの質問はそれよりも一般的であることを知っていますが、私が強調したいのは、重要な概念は可能性とそれに基づく推定値に密接に関係しているということです。これらの推定値は、有限サンプルでは不偏ではないかもしれませんが、漸近的であり、さらに漸近的に効率的です。つまり、MOM推定器の場合とは限りません。


11

なぜMLEがそれほど人気が​​あるのか​​という質問に答えるために、偏りはあるものの、標準的な条件下では一貫していると考えてください。さらに、漸近的に効率的であるため、少なくとも大規模なサンプルの場合、MLEは他の推定量と同じかそれ以上の性能を発揮する可能性があります。最後に、MLEは簡単なレシピで見つけられます。尤度関数を使用して最大化します。場合によっては、そのレシピを追うのは難しいかもしれませんが、ほとんどの問題ではそうではありません。さらに、この推定値が得られたら、フィッシャーの情報を使用して漸近標準誤差をすぐに導き出すことができます。フィッシャーの情報を使用しないと、多くの場合、エラーの範囲を導き出すのは非常に困難です。

これが、MLE推定が非常に多くの場合、推定値への移行である理由です(あなたがベイジアンでない限り)。実装するのは簡単で、料理をするためにもっと多くの作業をする必要がある他のどの製品よりも良くないとしても、同じくらい良いでしょう。


1
これがOPの重要な部分であると思われるため、瞬間の方法と比較する方法について詳しく説明していただけますか?
アントニ・パレラダ

1
whuberが指摘したように、MOM推定量にもバイアスがかかっているため、MOM推定量には「偏りのない」利点はありません。また、MOMとMLEの推定量が一致しない場合、MLEのMSEは低くなる傾向があります。しかし、この答えは、他の方法と直接比較するのではなく、MLEがデフォルトである傾向がある理由です。
クリフAB

2
@AntoniParellada MLEとMoMの比較に興味深いスレッドがあります。stats.stackexchange.com
q /

3

理想的な世界では望んでいない場合でも、それが得られたものであるため、時々(多くの場合)MLE推定量を使用することを付け加えます。(多くの場合、統計は、必要なものではなく、取得したものを使用するエンジニアリングのようなものだと考えています。)多くの場合、MLEの定義と解決は簡単で、反復アプローチを使用して値を取得します。一方、特定の状況で特定のパラメーターを使用する場合は、より優れた推定値(「より良い」値の場合)がありますが、それを見つけるには非常に賢い必要があります。そして、あなたが賢いことを終えたとき、あなたはまだその特定の問題に対してより良い推定量しか持っていません。


1
好奇心から、(理想の世界で)あなたが望むものの例は何ですか?
Glen_b -Reinstateモニカ

2
@Glen_b:ダンノ。偏りのない、最小の分散、閉じた形で計算しやすい?最小二乗回帰の推定量を初めて学習するとき、人生は実際よりも簡単に見えます。
eac2222
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.