最尤推定(MLE)とベイズの定理の比較


12

ベイジアン定理では、であり、私が読んでいる本から、は可能性が、私はそれだけだと仮定条件付き確率の与えられた、右? px|yxy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

最尤推定最大化しようとし権利を、?もしそうなら、私はひどく混乱しています、は両方ともランダム変数ですから?を最大化するにはを見つけるだけです。もう1つの問題、これらの2つの確率変数が独立している場合、はだけですよね?次に、を最大化すると、最大化されます。X Y 、P X | Y Y P X | Y P X P X | Y P X p(x|y)x,yp(x|y) y^p(x|y)p(x)p(x|y)p(x)

あるいは、はいくつかのパラメータ関数、つまりであり、MLEは最大化できるを見つけようとしますか?または、が実際にはランダム変数ではなくモデルのパラメーターであっても、可能性を最大化するには?θ P X | Y θ θ P X | Y Y Yp(x|y)θp(x|y;θ)θp(x|y)yy^

更新

私は機械学習の初心者です。この問題は、機械学習のチュートリアルで読んだものと混同しています。ここでは、観測されたデータセット与えられた場合、ターゲット値はであり、このデータセットにモデルを適合させようとしますなので、与えられた場合、はによってパラメーター化されたという名前の分布の形式、つまりを持ち、これは事後確率であると思いますか?、{ Y 1Y 2Y nが } xはY W θ P Y | X θを{x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

次に、の値を推定するために、MLEを使用します。わかりました、ここに私の問題が来ます、可能性はだと思いますよね?可能性を最大化するということは、正しいとを選択する必要があるということです。P X | Y ; θ θ Yθp(x|y;θ)θy

可能性の理解が間違っている場合は、正しい方法を教えてください。


混乱はこれだと思います。ベイズの定理は、質問の最初に与える条件付き確率の操作にすぎません。ベイズ推定は、パラメータ推定を行うためにベイズの定理を使用しています。後者のみです。最尤推定(MLE)を実行し、パラメーターthetaなどが機能します。
Zhubarb 2013年

@Berkan、まあ私は実際に与えられれば、どのような可能性があるかを理解しようとします。x,y,θ
アボカド

1
なるほど、パラメータの見積もりについては、このすばらしい一連の紹介講演スライドをご覧になることをお勧めします。
Zhubarb 2013年

1
もう1つの優れたトピックは、Empirical Bayesの推定量です。私達はちょうど私のクラスのもの:)について学んだbiostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/...
bdeonovic

回答:


16

誤解の核心は、質問の前半で尋ねた質問にあると思います。私はこの答えにMLEとベイズの推論パラダイムを対比させてアプローチします。MLEの非常に親しみやすい議論は、ゲイリー・キングの統一政治的方法論の第1章にあります。ゲルマンのベイジアンデータ分析では、ベイジアン側の詳細を提供できます。

ベイズの定理では、 と私が読んでいる本から、px|yは尤度と呼ばれますが、それはyが与えられたxの条件付き確率だと思いますよね?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

尤度条件付き確率です。ベイジアンにとって、この式は、データxと以前のp y )が与えられた場合のパラメーター分布を表します。ただし、この表記はユーザーの意図を反映していないため、今後はパラメーターにθy)を使用し、データにxを使用します。yxp(y)θyx

しかし、更新は、が何らかの分布p x | θ y から観察されることを示しています。データとパラメーターをベイズの規則の適切な場所に配置すると、これらの追加パラメーターはベイジアンに問題を引き起こさないことがわかります: p θ | x y = p x y | θ p θ xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

この表現は、あなたがアップデートで求めているものだと思います。

最尤推定はを最大化しようとしますよね?p(x,y|θ)

はい。MLEは、仮定します。 つまり、p θ y )を扱います。

p(x,y|θ)p(θ|x,y)
未知の(そして未知の)定数としての p x 。対照的に、ベイジアン推論は、pxを正規化定数として扱い確率が合計/統合されて1になるように)、pθyを主要な情報である事前分布として扱います。pθyは、最も可能性が高いと思われる領域から「離れすぎている」ための最適化手順にペナルティを課す方法と考えることができます。p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

もしそうなら、私はひどく混乱しています、はランダム変数ですから?最大化するために、P X Y | θはちょうど見つけることですθをx,y,θp(x,y|θ)θ^

MLEにおいてであると仮定される固定未知であるが推測することが可能である量、ない確率変数。ベイズ推定は、θを確率変数として扱います。ベイズ推論プット確率密度関数における確率密度関数を取得アウト MLEのようにではなく、モデルの点の要約を。つまり、ベイジアン推論は、パラメーター値の全範囲とそれぞれの確率を調べます。MLEの断定θはモデル与えられたデータを適切にまとめたものです。θ^θθ^


1
回答ありがとうございます。投稿を更新しました。更新をご覧ください。
アボカド

この更新により、質問に対する私の理解が根本的に変わりました。最初は、をパラメーター、xをデータと見なしていたと思いました。これで、x y はデータであるように見え、xyの関係を記述するモデルを構築することに関心があります。時間のあるときに応答を変更します。yx(x,y)xy
Sycoraxは、モニカ

+1これはすばらしい回答です。質問の変更に合わせて修正しても、ほとんどそのままにしておいてください。
whuber

更新された質問を反映するように、返信を更新しました。これらの詳細がお役に立てば幸いです。私が言及している参考文献を参照することをお勧めします。そして、私は@whuberがまだ承認することを望みます。;-)
Sycoraxは、モニカ

更新していただきありがとうございます。つまり、の分布形式を取り上げましたが、θを推定しようとするときはx yの両方を観測データとして扱う必要がありますか?p(y|x)x,yθ
アボカド

3

p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

または、より明確に(可能性の概念に関して):

p(θ|x)=L(θ;x)p(θ)p(x)

具体的な例として、モデルを考えてみましょう

X|θBinomial(θ)θBeta(α,β)

yx

Yは通常、Xの確率密度関数のパラメーターです。頻出設定では、yは通常、固定値です。ベイジアン設定では、Yはそれ自体がランダム変数です(例で示したように)。X | Yは、あなたが意味する意味で条件付き確率になることもあります。私は、その量が尤度と呼ばれる理由の背後にある動機を与えようとしていました。
David Marx

θX

ランダム変数であるからといって、それがパラメーターではないという意味ではありません。ベイジアン確率の素晴らしい世界へようこそ:)
デビッドマルクス

0
  • p(x|y)

p(x|y)xy

  • p(x|y)p(x)p(x|y)p(x)

p(x|y)=p(x)p(x)yy

  • p(x|y)θp(x|y;θ)θp(x|y)y^

θyp(x|y;θ)θ


θxyθ

0

STANリファレンスマニュアルから:

事前分布が均一である場合、事後モードはパラメーターの最尤推定(MLE)に対応します。事前分布が均一でない場合、事後モードは最大事後(MAP)推定と呼ばれることがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.