MCMCを使用して事後を近似するとき、事後確率を保存して、後でパラメーター値の頻度を使用しないのはなぜですか?


8

現在、いくつかの常微分方程式(ODE)で定義されたモデルのパラメーターを推定しています。マルコフ連鎖モンテカルロ(MCMC)を使用していくつかのデータを与えられたパラメーターの事後分布を近似することにより、ベイジアンアプローチでこれを試します。

MCMCサンプラーはパラメーター値のチェーンを生成し、特定のパラメーター値の(非正規化)事後確率を使用して、その値をチェーンに追加するか、以前の値を再度追加するかを(確率論的に)決定します。しかし、実際の事後確率を保存する必要はなく、生成された結果のパラメーター値のn次元ヒストグラムであり、パラメーター事後分布の最高密度領域(HDR)のような要約統計量が計算されるのが慣習のようですこのヒストグラムから。少なくとも私は、ベイジアン推論に関するクルシュケスのチュートリアルブックから学んだと思います。

私の質問:サンプリングされたパラメーター値の事後確率をこれらと共に保存し、MCMCチェーンのパラメーター値の頻度からではなく、これらの値から事後分布を概算する方が簡単ではないでしょうか?サンプラーは最初に低確率領域を事後確率で「ふさわしい」よりも頻繁にサンプリングするため、バーンインフェーズの問題は発生しませんが、これらに過度に高い確率値を与える問題はもはやありません。


MCMC 使用せずに(事後確率を保存するために)事後確率計算できる場合、なぜそれを使用しますか?
Tim

効率を上げるにはMCMCが必要だからです。パラメータースペースにグリッドを配置し、結果として得られるすべてのパラメーター値の正規化されていない事後確率を計算した場合、確率の低い領域で多くの時間を浪費することになります。特定のパラメーター値の正規化されていない事後確率値を取得できることは、MCMCを使用するための前提条件です。事後分析を行う必要はありません。だから私はすべての保存された確率値を取り、それらの合計で割ると、結果は私の事後の近似になります。
akraf 2016

1
@ティム:彼が意味することは、提案された移動の受け入れ確率を計算するために、現在の状態と提案された状態で事後を評価することです。到達したすべての状態についてこれらの事後値を維持すると、OPは事後全体を導出できると考えますが、そうではありません。少なくとも、それを証明する定理を見たことはありません。状態の分布を見ることで、あなたは「末端の」後部からサンプルを得ることマルコフ理論ショーに達した

@fcopはい、理解しています。同じことを別の言葉で言っていると思います:)
Tim

回答:


5

これは興味深い問題で、さまざまな問題があります。

  1. MCMCアルゴリズムは、提案されたすべての値で事後密度の計算を常にリサイクルするわけではありませんが、Rao-Blackwellizationのようないくつかの分散低減技術はリサイクルします。例えば、で1996 Biometrika紙ジョージ・キャセラと、我々はすべてのシミュレートされた値を使用することを提案する、の重みを導入することによって、不可または、平均ターンそのは、ほぼ不偏な推定量になります。(ほとんどは、重みの合計による正規化によるものです。)θi (i=1,,T)ωi
    i=1Tωih(θi)/i=1Tωi
  2. MCMCは、大きな(パラメーター)次元の問題でよく使用されます。いくつかのパラメーター値で観測された密度値に基づいて事後全体への近似を提案することは、Timの回答とコメントで言及されている正規化定数の問題を含め、非常に困難です。ノンパラメトリックカーネル推定(クリギングなど)と回帰を組み合わせたアプローチを想像できますが、このソリューションについて[数年前に]話し合った専門家はかなり懐疑的でした。問題は、結果の推定量がノンパラメトリックのままであるため、モンテカルロ収束速度よりも遅いノンパラメトリック収束速度を「楽しむ」ことであり、次元が大きくなるほど悪化します。
  3. 事後値の可用性の別の潜在的な使用法は、ように、関連する事後によって各シミュレーション値に重みを残念ながら、これはバイアスを作成します。これは、シミュレートされた値がすでに後方からシミュレーションされているためです: 正規化の問題がなくても、これらのシミュレーションは、このように標的されるべきであると重量を使用比例するπ(θ|D)
    1Tt=1Th(θt)π(θt|D)
    E[h(θt)π(θt|D)]=h(θ)h(θt)π(θt|D)2dθ
    πθ|D 1 / 2 πθ 1 / Tπ(θ|D)1/2π(θ|D)1/2しかし、このターゲットの切り替えを支持する結果は知りません。コメントで述べたように、これはテンパリングに関連しており、シミュレートされたテンパリングサイクル内で生成されたすべてのシミュレーションは、モンテカルロ(統合)の目的でこの方法でリサイクルできます。ただし、数値的な問題は、正規化定数が欠落しているという形式のいくつかの重要な関数を処理することです。π(θ)1/T

2
豊富なコメントありがとうございます。明確な質問をさせてください!ポイント1の「リサイクル」の意味と、それが正規化されていない事後値の使用を妨げている理由がわかりません。ポイント2:「一部のパラメーター値で観測された密度値に基づいた事後全体への近似が非常に難しい」場合、MCMCプロセスから得られたサンプルの周波数のみを使用する場合、なぜそれほど少ないのですか?
akraf 2016年

1
ポイント3:をターゲットとすることは、MCMCチェーンの混合を容易にするために、事後を "和らげる"、つまり "ピークを平坦化"する一般的な方法です。平坦化が強いほど、は高くなります。提案されたアプローチは、調整された分布からのサンプルを前提として、元の調整されていない分布を復元する方法である可能性がありますか? T > 1 T π θ | D π θ | D 1 / Tπ(θ|D)1/TT>1Tπ(θ|D)π(θ|D)1/T
akraf 2016年

2

お気づきのように、私たちが扱っている確率は正規化されていません。基本的に、MCMCを使用してベイズの定理で正規化係数を計算します。確率は正規化さていないため使用できません。提案する手順:正規化されていない確率を保存し、それらを合計で割るのは正しくありません。

例を挙げて説明します。モンテカルロを使用して、でパラメーター化されたベルヌーイ分布から10個の値を描画すると想像してください。それらは次のとおりです。p=0.9

1 0 1 1 1 1 1 1 1 1

対応する確率もあります:

0.9 0.1 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9

この場合、確率は正規化されていますが、それらの合計(確率の公理は1に等しい)で除算しても何も変わりません。生憎、あなたの手順を使用することはありません結果を次のように変更します。

> f/sum(f)
 [1] 0.10975610 0.01219512 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610

何故ですか?答えは簡単です。サンプルでは、​​保存された各「確率」fが確率fで表示されるため、確率を自分で重み付けしています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.