事後予測分布とMAP推定

7

トレーニングデータセット、によってパラメーター化された確率モデル、および以前の考えます。新しいデータポイント場合、次を使用してを計算できます。 $X$ $\theta$ $P(\theta)$ $x^*$ $P(x^*)$

完全なベイジアンアプローチ：事後予測分布 $P(x^* | X) = \int P(\theta|X) P(x^*|\theta) d\theta$
最大事後推定によってパラメーター化された尤度：、ここで $P(x^* | \theta_{MAP})$ $\theta_{MAP} = \text{argmax}_\theta P(\theta|X)$

完全なベイジアンアプローチは、MAPアプローチよりも常に「優れている」のですか？より正確には、が適切な近似であることを期待しているという意味で、MAPアプローチはベイジアンアプローチの近似ですか？ $P(x^* | \theta_{MAP})$ $P(x^* | X)$

bayesian maximum-likelihood posterior

— いつもの私
ソース

3

最初のケースでは、モデルのパラメーター起因するすべての不確実性がpdfに含まれます。2番目のケースでは、それは行われません...

θ

$\theta$

— Pascal

4

私はよくこのように考えます。完全なベイジアンアプローチでは、積分

p (x^{*} | X) = \int p (x^{*} | θ) p (θ | X) d θ

$p(x^*|X) = \int p(x^*|\theta) p(\theta|X) \text{ d}\theta$

すべての可能なモデル（実際には無限に多くのモデル）を統合し、これらのモデルをすべて「考慮に入れて」予測します。これは扱いにくいことが多いので、後方積分のMAP推定を使用します。これは、同じ積分を評価することに対応しますが、今回は無限小部分、つまり最大。つまり、事後分布の最大にある新しい「デルタ分布」を乗算し、これを統合して予測を取得します。 $p(\theta|X)$ $p(\theta|X)$ $p(x^*|\theta)$

したがって、違いはかなり明白です。完全なベイジアン処理は、モデルの無限集合に対応します。ここで、所定の予測は、モデル確率、つまり、より可能性の高いモデルは予測により多く貢献します。パラメータのMAP推定は、1つの特定のモデル、つまりベイズの定理による最も可能性の高いモデルからの予測を提供します。アンサンブル理論は、より良い一般化とより正確な予測が得られることが多いことを示しています。そのため、これはMAPよりも「優れている」ことがよくあります。 $p(x|\textbf{x},\theta)$ $p(\theta|\textbf{x})$

お役に立てれば。

— ジョナサン・フォルダージャー
ソース

2

モデルが正しく指定されていると仮定すると、予測分布は、未知のパラメーターのすべての不確実性を考慮した新しいデータポイントの推定を提供します。2番目の方法では、推定器を使用してパラメータ置換を使用するだけで、これを未知のパラメータの完全な推定器として効果的に処理しているため、結果の「予測」分布は、未知のパラメータの不確実性を考慮していません。。このため、後者の分布は前者よりも変動性が低くなる傾向があり、モデルが正しく指定されている場合、これは新しいデータポイントの変動性を過小評価していることを意味します。つまり、予測分布は一般に「より良い」と見なされます。 $\theta$ $\theta$

ちなみに、この種の比較はベイジアン統計に限定されるものではありません。比較しているこのメソッドは、ピボット量を使用して新しいデータポイントの適切な信頼区間（ベイジアン予測区間に類似）を取得するか、単に置き換えることができる、頻度主義の方法論で発生する類似の手法と非常によく似ています。 MLEを既知のパラメーター値であるかのように扱い、サンプリング分布から新しいデータポイントの間隔を取得します（ベイジアンパラメーター置換法に類似）。

— ベン-モニカの復活
ソース