なぜベイジアン後部はKL発散の最小化子に集中するのですか?


9

ベイズ事後考えてみましょθX。漸近的に、その最大値はMLE推定値で発生θだけ尤度最大化し、argminのθをθ^argminθfθ(X)

これらのすべての概念、つまり可能性を最大化するベイズの事前分布は、超原理的であり、まったく恣意的ではありません。ログが見えません。

しかし、MLEは、実際の分布とのKLダイバージェンスを最小限に抑えf~fθ(x)すなわち、それは最小限に抑え、

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

うわー、これらのログはどこから来たのですか?特にKLの相違はなぜですか?

たとえば、異なる発散を最小化することが、ベイジアン後任者の超原理的で動機付けられた概念に対応せず、上記の可能性を最大化しないのはなぜですか?

このコンテキストでは、KLの相違やログについて特別なことがあるようです。もちろん、私たちは空中に手を投げて、それがまさに数学がそうであると言うことができます。しかし、明らかにするために、より深い直感やつながりがあるのではないかと思います。


あなたはここにいくつかのアイデアを見つけることができます: stats.stackexchange.com/questions/188903/...
はKjetil BをHalvorsenの

@kjetilbhalvorsen以前のタイトルは重複のように聞こえました。謝罪します。編集を行いましたが、この質問が重複していない理由は明らかです。
Yatharth Agarwal

他の質問は、「KLダイバージェンスとは何か、そしてなぜそれは対称的ではないのか」と尋ねます。答えは、分岐の概念と、KLに関するいくつかの情報を説明しています。対照的に、この質問は、「なぜベイジアン事後はKL発散の最小化因子に集中するのか」と問います。発散が対称的である必要がないことを簡単に説明し、KLを説明し、KLがMLEに接続されていることを説明することは、ここでの質問の核心に対処することに失敗します。これは理にかなっていますか?
Yatharth Agarwal

はい、それは理にかなっていますが、まだ問題があります。後部は前のものにも依存し、それが強い場合、後部は最大値をMLEから離すことができます。しかし、事前はあなたの質問に欠席しています。
kjetil b halvorsen

@kjetilbhalversen私は漸近的に、より多くのIIDサンプルを使用し、事前条件が漸近的に重要ではない(厳しい)条件下で意味しました!
Yatharth Agarwal

回答:


5

このような計算での対数の使用は、情報理論に由来します。KL発散の特定のケースでは、メジャーは2つの分布の相対情報として解釈できます。

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

H(f~)f~H(f~,fθ)f~fθf~

短い投稿で、情報理論と情報測度の特性について十分に説明することはできません。ただし、統計と密接な関係があるため、フィールドを確認することをお勧めします。密度の対数の積分と合計を含む多くの統計的測度は、測度理論で使用される標準的な情報測度の単純な組み合わせであり、そのような場合、さまざまな密度などの基礎となる情報レベルに関する解釈を与えることができます。


情報理論を調べることは有望に聞こえます。指摘してくれてありがとう。
Yatharth Agarwal

明らかに、StackExchangeの投稿で数学フィールド全体を説明することはできませんが、ログが表示されるそれらへの特定の参照がありますか?
Yatharth Agarwal

なぜeがオイラーの方程式などにあるのか、その背後には深い直感があり、同様の直感がここに潜んでいると思います。多分どこかの製品が自然対数を生みます。よく分かりません。
Yatharth Agarwal

@Yatharth対数は、シャノンエントロピーの定義における中心的な役割のためにここで発生します。「なぜ」対数が情報の測定に適切であるかについては、別の関数とは対照的に、シャノンの「数学的コミュニケーション理論」の定理2を見てください。また、Jayneの「情報理論と統計力学」は素晴らしい紹介です。
ネイト教皇
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.