MAPがMLEに収束するのはなぜですか?


8

ケビンマーフィーの「機械学習:確率論的視点」の3.2章では、著者は「数値ゲーム」と呼ばれる例でベイズの概念学習を示していからサンプルを観察した後、サンプルを生成したルールを最もよく表す仮説を選びます。たとえば、「偶数」または「素数」。{ 1 100 } 時間N{1100}h

最大事後推定と最尤推定は次のように定義されます。

h^MP=arg最高h pD|hph=arg最高h[ログpD|h+ログph]

h^MLE=arg最高h pD|h=arg最高hログpD|h

ここで、phはさまざまな仮説の事前確率を表し、事後は次のように定義されます。

pD|h=[1|h|]N

IFF Dh、すなわち、それは仮説から置換した均一なサンプリングがどのように可能性が高いhセット生じるであろうD。直感的には、「最小」の仮説に対して事後が最も高いことを意味します。たとえば、仮説「2の累乗」は「偶数」よりも観測\ {2,4,8,16,64 \}を説明し{2481664}ます。

これはすべて明らかです。ただし、次の文については混乱しています(直感的には完全に理にかなっていますが)。

尤度項は指数関数的にに依存し、以前の値は一定のままであるため、データを取得するたびに、MAP推定値は最尤推定値に収束します。N

尤度は指数的にに依存することは事実ですが、指数はあり、、であるため、実際には尤度はになります。0 1 N X N0N01NバツN0

この場合、MAPがMLEに収束するのはなぜですか?


1
これは、バーンスタインの結果である-ミーゼスの定理:nber.org/WNE/Slides7-31-07/slides_7_bayes.pdf(スライド9時開始)も:andrewgelman.com/2017/11/27/asymptotically-we- are-all-deadです。
jbowman

参照をありがとう。しかし、彼らはこの矛盾する例をどのように説明しますか?
Jan Kukacka

回答:


5

ここには2つの問題があります。1つ目は、MAPが一般に(常にではありませんが)MLEに収束する理由と、「消失する可能性」の問題です。

最初の問題については、バーンスタイン-フォンミーゼスの定理を参照します。その本質は、サンプルサイズが大きくなると、以前のデータとデータに含まれる相対情報がデータに有利にシフトするため、事後はMLEのデータのみの推定値とピークに集中するようになります。実際にはMLEに収束します(特定の前提が満たされなければならないという通常の注意が必要です)。簡単な概要については、ウィキペディアのページを参照してください

2番目の問題については、事後密度を正規化していないために発生します。ベイズの法則:

Ph|D=PD|hphpD

そして、はれますが、も同様です。もう少し具体的に言うと、2つの仮説とを仮定すると、次のように事後がわかります。、N P D H 1 、H 2PD|h0PDh1h2

Ph1|D=PD|h1ph1PD|h1ph1+PD|h2ph2

分子と分母はどちらも乗された項を持っているため、どちらもはと同じですが、正規化に必要なことにより、これが原因で発生する問題が修正されることは明らかです。N0N

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.