ベイズ推定と最尤推定の違いは何ですか?


50

ベイズ推定値と最尤推定値の違いを教えてください。


7
ベイジアン推定の種類に依存します。地図?事後平均?損失関数のベイズリスクを最小化した結果は?上記のそれぞれ?他に何か?
Glen_b

2
ここで、この質問または類似の質問に答えました。stats.stackexchange.com/questions/73439/…この2つを理解する上でどのような問題がありますか?より詳細な情報があれば、より良い答えが得られます。
モニカを

1
STANリファレンスマニュアルから:「事前分布が均一の場合、事後モードはパラメーターの最尤推定(MLE)に対応します。事前分布が均一でない場合、事後モードは最大事後(MAP)推定と呼ばれることもあります。 」
ニーラヴ

@Neeravそれは私が必要な答えです。thx
javadba

ベイジアン最大事後推定の特定の場合のおそらく役に立つ答えはここに与えられます
pglpm

回答:


68

それは非常に広範な質問であり、ここでの私の答えはほんの少し表面をひっかき始めただけです。ベイズの規則を使用して、概念を説明します。

一連の確率分布パラメーターがデータセットDを最もよく説明すると仮定します 。ベイズの規則の助けを借りて、パラメーターθを推定することができます。θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

説明は次のとおりです。

最大尤度推定

θp(D|θ)θ^θ^

p(θ)p(D)p(θ)θ

ベイジアン推定

p(θ|D)θ

θp(θ|D)θθθ

evidence

p(D)=θp(D|θ)p(θ)dθ

これは、ベイズ推定における「共役事前分布」の概念につながります。与えられた尤度関数について、以前の信念をどのように表現するかについて選択がある場合、上記の統合を実行できる形式を使用する必要があります。共役事前分布のアイデアとそれらが実際に実装される方法は、この投稿でCOOlSerdashによって非常によく説明されています。


1
これについて詳しく説明していただけますか?:「ベイズの規則の分母、すなわち証拠」。
ダニエル

1
答えを拡張しました。
ジュバル

ここの方程式の@ Berkan、P(D |θ)は尤度です。ただし、尤度関数は、データが与えられた場合のパラメーターの関数であるP(θ| D)として定義されます。私はいつもこれについて混乱しています。尤度という用語は、ここで異なることを指しているのですか?それについて詳しく説明していただけますか?どうもありがとう!
ゼスラ

1
@zesla私の理解が正しければ、P(θ| D)は尤度ではなく、事後です。つまり、サンプルがあるデータソースを条件とするthetaの分布です。P(D |θ)—シータでパラメーター化されたデータの分布、またはおそらくより直感的に言えば、シータの関数としての「見えるものを見る可能性」。それは理にかなっていますか?他のみんな:私が間違っているところを修正してください。
-grisaitis

@ zesla、grisaitisによる説明は正しい。
ジュバル

13

データ生成メカニズムのパラメトリック確率モデルを想定できるが、パラメーターの実際の値は不明であるように、パラメトリック推論のようなポイント推定について話していると思います。

最尤推定とは、データに確率モデルを使用し、1つ以上のパラメーターで観測データの結合尤度関数を最適化することです。したがって、推定されたパラメーターは、パラメーター空間内の他のパラメーターと比較して、観測されたデータと最も一致していることがわかります。パラメーターはランダム変数ではないため、そのような尤度関数は必ずしもパラメーターの「条件付き」とは見なされないことに注意してください。これは哲学的に健全なアプローチであることがわかります。

ベイズ推定は、尤度(事後密度)のベイズ類似を必ずしも最大化しないため、もう少し一般的です。ただし、類似のタイプの推定(または事後モード推定)は、データを条件とする事後パラメーターの確率を最大化するものと見なされます。通常、このような方法で得られたベイズの推定値は、MLの推定値とほぼ同じように動作します。主な違いは、ベイズ推論により、事前情報を組み込む明示的な方法が可能になることです。

また、「最尤法の叙事詩の歴史は、読解力を高める

http://arxiv.org/pdf/0804.2996.pdf


これについて詳しく説明していただけますか?「しかし、類似のタイプの推定(または事後モード推定)は、データを条件とする事後パラメーターの確率を最大化するものと見なされます。」
ダニエル

連続DFでは値が明確に定義されているため、事後モードは少し誤った呼び名です。事後密度は、事後密度からパラメーターをシミュレートできることを除いて、頻繁な場合の尤度に関連しています。興味深いことに、最も直感的には、「事後平均」をパラメーターの最適なポイント推定値と考えています。このアプローチはよく行われ、対称的な単峰性密度の場合、これはMLと一貫した有効な信頼できる間隔を生成します。事後モードは、事後密度の頂点でのパラメータ値です。
AdamO

「これにより、MLと一貫性のある有効な信頼できる間隔が生成されます。」:それは本当にモデルに依存していますよね?それらは一貫しているかもしれないし、そうでないかもしれない
ダニエル

1
基礎となるパラメトリック前提の問題は、完全パラメトリック対セミパラメトリックまたはノンパラメトリック推論に関する議論の動機となります。それはML対ベイジアンの問題ではなく、あなたがその間違いをする最初の人ではありません。MLは完全にパラメトリックなアプローチであり、SPまたはNPができないこと(および可能な場合はより効率的であることが多い)を推定できます。MLで確率モデルを正しく指定することは、正しい事前確率と、すべてのロバストネスプロパティ(および感度の問題)を選択することとまったく同じです。
AdamO

ところで、あなたのコメントは私の心の中でこの質問に火をつけました。これについて何かコメントはありますか?stats.stackexchange.com/questions/74164/…–
ダニエル

2

ベイジアン推定はベイジアン推定であり、MLEは一種の頻出推論法です。

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

ベイジアン推論におけるMLEの代替案は、最大事後推定(略してMAP)と呼ばれます。実際、MLEは、上記およびWikipediaで述べられているように、事前確率が均一なMAPの特殊なケースです。

ベイジアン推論の観点から見ると、MLEはパラメーターの一様な事前分布を仮定する最大事後推定(MAP)の特別なケースです。

詳細については、この素晴らしい記事を参照してください:MLE vs MAP:Maximum LikelihoodとMaximum A Posteriori Estimationの関係

さらにもう1つの違いは、最尤法が過剰適合の傾向があることですが、ベイジアンアプローチを採用すれば、過剰適合の問題を回避できます。


1
Bayesの素晴らしい点の1つは、ポイント推定値をまったく計算する義務がないことです。全体の後方密度が「推定」になります。
フランクハレル

@FrankHarrell親愛なるハレル教授、どこかでひどい間違いをした場合、答えを編集するのを手伝ってもらえますか?どうもありがとう!
ラーナーチャン

1
私はあなたが間違いを犯したことを意味するつもりはありませんでした。
フランクハレル

@lerner:最大尤度推定値を最大事後推定値の特定のケースとして特定することに対して警告したい(事前確率が一定の場合):この答えで理由を参照してください。
-pglpm
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.