MLEとMAPの推定、どちらを使用するか


13

MLE =最尤推定

MAP =事後最大

MLEは直感的で素朴です。つまり、パラメーター(つまり、尤度関数)が指定された観測の確率でのみ始まり、観測と最もよく一致するパラメーターを見つけようとします。ただし、事前の知識は考慮されていません。

MAPはベイズの法則による事前の知識を考慮に入れるため、より合理的です。

ここに関連する質問がありますが、答えは完全ではありません。 /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

したがって、MAPの方がはるかに優れていると思います。そうですか?そして、いつどちらを使用すればよいですか?

回答:


18

問題の設定の一部として事前確率が与えられている場合は、その情報を使用します(つまり、MAPを使用します)。そのような事前情報が与えられていない、または想定されていない場合、MAPは不可能であり、MLEは合理的なアプローチです。


8
フラットな事前分布を持つMAPはMLを使用することと同等であることを追加する価値があります。
ティム

また、数学的に「便利」な事前分布が必要な場合は、共役先行分布を使用できます(状況に応じて存在する場合)。
Bean

8

ベイジアンはあなたに同意しますが、常連客は同意しません。これは、意見、視点、および哲学の問題です。1つの方法が常に他の方法よりも優れていると主張しようとすることは、統計コミュニティに大きな害を与えると思います。多くの問題には、ベイジアンに事前確率が強すぎない限り、類似したベイジアンおよび頻出解があります。


7
それは単に意見の問題ではありません。1つの推定量が他の推定量よりも優れている明確な状況があります。
Tom Minka、2014年

2
@TomMinkaある方法が他の方法よりも優れている状況がないということは決してありませんでした!私は単に「MAPの方が合理的であるようだ」などのOPの一般的なステートメントに応答しました。このような発言は、ベイジアン手法が常に優れているという主張に相当します。これは、あなたと私が明らかに反対している発言です。
jsk 2014年

冗談は正しいです。ベイジアンと頻度主義のアプローチは、哲学的に異なります。したがって、厳格な頻度主義者は、ベイジアンのアプローチは受け入れられないと思います。
マイケルR.チェニック2018年

2

正確な事前情報があると仮定すると、問題の推定値にゼロワンロス関数がある場合、MAPの方が適しています。損失がゼロ1ではない場合(そして多くの実際の問題ではそうでない場合)、MLEが期待される損失を低くする可能性があります。これらのケースでは、MAPとMLEを2つだけのオプションとして制限しない方が良いでしょう。どちらも次善策であるためです。


パラメータがパラメータ化に依存する場合のMAP推定量。「0-1」損失は依存しません。なぜなら、私は一般的に、確率1と1の喪失、そして再び近似を構築しようとする試みを与えるすべての推定量を起算することにより、引用符で0-1のパラメータ化の問題を紹介

1
私の考えでは、ゼロワンロスはパラメーター化に依存しているため、矛盾はありません。
Tom Minka 2014年

0

@beanによる短い回答は、それを非常によく説明しています。ただし、Resnik and Hardistyの初心者向けのGibbs Samplingのセクション1.1を指摘しておきます。このペーパーからほんのわずかな変更を加えて数行を書いています(この回答は、完全を期すためにOPが知っていることのいくつかを繰り返しています)。

MLE

形式的にMLEは、観測されたデータを生成する可能性が最も高い(モデルパラメーターの)選択を生成します。

地図

推定されたMAPは、観測されたデータから最も可能性の高い選択です。MLEとは対照的に、MAP推定ではベイズの規則が適用されるため、推定では、パラメーターが事前確率分布の形式であると予想されるものに関する事前知識を考慮に入れることができます。

キャッチ

MLEとMAPの推定値は、それぞれ「最良」の定義によると、どちらも最良の推定値を提供しています。ただし、単一の見積もりを使用すると(MLEでもMAPでも)、情報が破棄されることに注意してください。原則として、パラメーターは(ドメインからの)任意の値を持つことができます。パラメータの単一の推定値ではなく、分布全体を考慮に入れると、より良い推定が得られないのではないでしょうか。その場合、観測データXから取得できるパラメーターに関するすべての情報を利用します。

したがって、このキャッチでは、どれも使用したくない場合があります。あなたがあればまた、既に、豆とティムが言及する必要がありますが、以前得た場合、使用のMAPを、それらのいずれかを使用します。事前分布がない場合、MAPはMLEに減少します。共役事前分布は、問題を分析的に解決するのに役立ちます。そうでない場合は、ギブスサンプリングを使用します。


-2

データが少なく、利用可能な事前分布がある場合-「GO FOR MAP」。データが多い場合、MAPはMLEに収束します。したがって、大量のデータシナリオの場合、MAPよりもMLEを実行する方が常に適切です。


それはそれほど単純ではありません。
マイケルR.チェニック2018年

@MichaelChernick私は間違っているかもしれません。私はこれを大学院で読んだ。私が間違っていた箇所を修正してほしい。
Heisenbug

頻度主義的アプローチとベイズ的アプローチは、哲学的に異なります。周波数アプローチは、繰り返しサンプリングに基づいてモデルパラメータの値を推定します。ベイジアンアプローチでは、パラメーターを確率変数として扱います。したがって、ベイジアンアプローチでは、事前分布とデータを組み合わせたパラメーターの事後分布を導出します。MAPは事後分布の最も高いピークを探しますが、MLEはデータの尤度関数だけを見てパラメーターを推定します。
マイケルR.チェニック2018年

@MichaelChernick-ご意見ありがとうございます。しかし、十分なデータがあると、MAPはMLEのように動作しません。MAP式を破ると、MLE項も取得されます。大量のデータがあると、MAPのMLE用語が以前のものを引き継ぎます。
Heisenbug

それは以前のデータの量に依存します。大きなサンプルでも同様の結果が得られます。違いは解釈にあります。私のコメントは、あなたが作るほど簡単ではないことを示すためのものでした。少量のデータがあれば、事前にMAPを選択するだけの問題ではありません。事前に選択が不十分な場合、事後分布が不十分になり、MAPが低下する可能性があります。
マイケルR.チェニック2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.