MCMCサンプルからの限界尤度の計算


24

これは、定期的な質問(参照で、この記事この記事この記事を)が、私は別のスピンを持っています。

一般的なMCMCサンプラーからのサンプルがたくさんあるとします。各サンプルについて、対数尤度および前の対数の値を知っています。役立つ場合は、データポイントごとの対数尤度の値も知っています(この情報は、WAICやPSIS-LOOなどの特定の方法で役立ちます)。θlogf(x|θ)logf(θ)logf(xi|θ)

私が持っているサンプルと、場合によっては他のいくつかの関数評価を使用して(ただし、アドホック MCMC を再実行せずに)限界尤度の(粗)推定値を取得したい。

まず、テーブルをクリアしましょう。私たちは皆、高調波推定器が史上最悪の推定器であることを知っています。次へ移りましょう。事前形式と事後条件を閉じた形式でギブスサンプリングを行う場合は、Chibの方法を使用できます。しかし、これらのケース以外で一般化する方法がわかりません。サンプリング手順を変更する必要がある方法もあります(後回しなど)が、ここでは興味がありません。

私が考えているアプローチは、基礎となる分布をパラメトリック(またはノンパラメトリック)形状で近似し、正規化定数を1次元最適化問題(つまり、誤差を最小にする間及びのサンプルで評価)。最も単純な場合、後部がほぼ多変量正規であると仮定すると、を多変量正規として近似し、ラプラス近似に似たものを得ることができます(いくつかの追加の関数評価を使用して、モード)。ただし、として使用できますg(θ)ZZZg(θ)f(x|θ)f(θ)g(θ)g(θ)多変量分布の変分混合など、より柔軟なファミリ。t

私は、このメソッドは場合にのみ機能することを認めるへの合理的な近似である、それはに非常に賢明だろう理由のいずれかの理由や訓話しますか?お勧めの読書はありますか?Zg(θ)f(x|θ)f(θ)

完全なノンパラメトリックアプローチでは、ガウスプロセス(GP)などのノンパラメトリックファミリを使用して、(またはそのような他の非線形変換など)を近似し平方根として)、およびベイジアン求積法で潜在的なターゲットを暗黙的に統合しますこちらこちらをご覧ください)。これは興味深い代替アプローチのように見えますが、精神的には類似しています(また、私の場合、GPは扱いにくいことに注意してください)。logf(x|θ)+logf(θ)


6
Chib、S. and Jeliazkov、I. 2001「メトロポリスからの限界尤度-ヘイスティングス出力」は通常のMCMC出力に一般化されると思います-このアプローチの経験を聞きたいと思います。GPに関しては、基本的に、これは事後のエミュレーションに要約されます。これは、他の問題についても考慮することができます。問題は、近似の品質について決して確信がないことだと思います。また、MCMCサンプルがGPモデルに理想的かどうか、またはテールにもっと投資すべきかどうかも疑問です。
フロリアンハーティグ

2
(+1)参照してくれてありがとう、スポットに見えます-私はそれをチェックします。すべてのモデルベースのアプローチには問題がある可能性があることに同意します(ベイジアン求積法の良い点は、どのように較正されているかはわかりませんが、不確実性の推定値が得られることです)。今のところ、私の控えめな目標は、「ラプラス近似よりも良い」ことをすることです。
-lacerbi

回答:


26

Chib and Jeliazkov(2001)による拡張は、残念ながらすぐにコストがかかるか、非常に変動しやすくなります。これがギブスのサンプリングケース以外ではあまり使用されない理由です。

正規化定数推定問題には多くの方法とアプローチがありますが(先週ウォリック大学で行った推定定数ワークショップでの非常に多様な講演で説明されているように、そこで利用できるスライド) MCMC出力を直接。Z

  1. 既に述べたように、Newton and Raftery(1994)の調和平均推定量は、無限の分散を持つためにほとんど常に劣っています。ただし、代わりに調和平均恒等式で有限のサポートターゲットを使用することにより、無限分散の呪いを回避する方法があります 後部のHPD領域のインジケーターとしてを 選択します。これは、調和平均のテールを削除することにより、有限分散を保証します。(詳細に見られる私はダレンレイスと書いた紙とで正規化定数約章要するに、この方法は、MCMC出力をリサイクルジャンミシェル・マリンで書か。)

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θMターゲットの(20%など)最大値を識別し、それらの最大密度(HPD)シミュレーションを中心としたボールのユニオン上で均一なを作成すると半径、正規化定数の推定値を意味によって与えられます。 βπ(θ)f(x|θ)αθi0ρZ DθραM2βM21
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    場合の次元で(訂正がボールを交差するために適用)とあれば交差(で最高の一つの指標であることを意味しないようにボールの小さな十分ですボールはゼロとは異なります)。分母の説明は、これがdθραM2βM2用語: 中の各用語とに統合。 θMZ-1
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    θmZ1
  2. 別のアプローチは、正規化定数をパラメーターに変換することです。これは統計的な異端のように聞こえますが、Guttmann andHyvärinen(2012)の論文は私にその反対を確信させました。詳細をあまり詳しく説明しなくても、観測された対数尤度 を結合対数尤度 は、強度関数をもつポアソン点プロセスの対数尤度です N Σ iが= 1、F X I | θを- N ログ EXP F XはZN Σ iが= 1 [ F X I | θ + ν ] - N EXP [ F Xは| θ + ν ] d x exp {

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    exp{f(x|θ)+ν+logn}
    これは、元の尤度が上記の限界として現れないという点で、代替モデルです。モードのみが一致し、νの条件付きモードは正規化定数を提供します。実際には、上記のポアソンプロセスの尤度は利用できず、Guttmann andHyvärinen(2012)はロジスティック回帰による近似を提供します。あなたの質問とさらに良く結びつけるために、Geyerの推定はMLEであり、したがって最大化問題の解決策です。
  3. 接続されたアプローチは、チャーリー・ガイアーのロジスティック回帰アプローチです。基本的な概念は、からのMCMCサンプルに既知のターゲットからの別のサンプル、たとえば、、での最良の推測を追加し、実行することです。データの背後にある分布のインデックスのロジスティック回帰( 1、 0 )。回帰変数は、両方の密度の値であり、正規化されているかどうかは関係ありません。これは、Gelman and Meng(1997)ブリッジサンプリングと直接リンクしているため、異なるターゲットからのサンプルもリサイクルされます。そして、MengのMLEのような後のバージョン。π(θ|x)π(θ|x)g(θ)π(θ|x)g(θ)
  4. 特定のMCMCサンプラーを強制的に実行させる別のアプローチは、Skillingのネストされたサンプリングです。I [その他]は方法の効率性に関するいくつかの予約を持っているが、それはのような利用可能なソフトウェアで、astrostatisticsと宇宙論ではかなり人気がありmultinest
  5. 最後の[常に可能とは限らない可能性のある]解決策は、帰無仮説が組み込まれている場合にベイズ因子のサベージディッキー表現を活用することです。ヌルがとして書き込む場合のパラメーターについて、およびがモデルのパラメーターの残りの[迷惑]部分である場合、、代替に対するのベイズ因子は、 ここで、は、特定の値での周辺事後密度を示しますH0:θ=θ0ξπ1(θ)π2(ξ)H0 πθθ0|Xθθ0H0θ=
    B01(x)=πθ(θ0|x)π1(θ0)
    πθ(θ0|x)θθ0。null下の周辺密度の場合 は閉じた形式では、制約のないモデルの限界密度を導出できます ベイズ因子の。(このSavage-Dickey表現は、3つの異なる密度の特定のバージョンに依存しているため、限界後部を生成する計算上の課題については言及していませんが、危険に満ちています。)H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ

[これは、昨年12月のNIPSワークショップの正規化定数の推定について書いたスライドのセットです。]


2
(+1)信じられないほど豊富な答え、ありがとう。これは私にとって有用であり、他の多くの人々にとってもそうでしょう。さまざまなアプローチを見るのに少し時間がかかります。その後、特定の質問に戻ってくるかもしれません。
-lacerbi

2
ポイント(1)から開始...関連記事を読みました。「修正された」調和平均推定量は、まさに私が探していたもののようです。MCMCの出力が与えられると、計算が簡単になります。だから...キャッチは何ですか?Google Scholarのクイック検索から判断すると、この方法は広く使用されているようには見えません。その制限は何ですか?(HPD領域を識別する必要性に加えて、高次元で非常に複雑な後継者にとっては問題になると思います)。私は間違いなく試してみるつもりですが、私は警戒する必要があるものがあるのだろうかと思います。
-lacerbi

2
さらに詳細を追加しました。HPDユニフォームを実装する際の問題は、HPD領域の適切なコンパクトな近似を把握することです。後部の値が高い点の凸包は(NP?)決定するのが難しく、それらの点を中心とするボールが交差する可能性があり、これが二次正規化定数問題を作成します。
西安

2
@ Xi'an:とても助かります、ありがとう!私は尋ねることができます:上記のすべてのアプローチのうち、箱から出して動作する傾向のある一般的なアプローチを探している場合(つまり、ユーザーからのチューニング/チェックは不要)、現在の推奨事項は何ですか?特に、パラメーターの数が少ない(<50)、非正常後天性、およびパラメーター間の強い相関があるモデルの場合に興味があります。
フロリアンハーティグ

1
@FlorianHartig:BUGSのような一般的なソフトウェアが一般的な推定値を返さないという事実は、問題の程度を明らかにしているようなものです。専門文献で見つけることができる多くの解決策は、コンセンサス推定を生み出していません。したがって、私の推奨事項は、Geyerのロジスティック回帰ソリューションを選択することです。これは、ディメンションには多少影響を受けません。Z
西安
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.