ハミルトニアン/ハイブリッドMCMCの「質量行列」の用語


8

非対角質量行列を使用してHMCを実装しようとしていますが、いくつかの用語につまずかれています。

BDA3とNealのレビューによると、運動エネルギーの項(便宜上、常に使用されていると思います)は

K(p)=pTM1p2.

これは、ゼロ平均と共分散行列をもつ多変量正規と呼ばれることでも認識できます。BDA3(pg 301)は言うM

単純にするために、通常、対角質量行列Mを使用します。その場合、φの成分は独立しており、各次元j = 1、。についてφj〜N(0、Mjj)です。。。、d。Mは、事後分布の逆共分散行列(var(θ| y))^-1で大まかにスケーリングすると便利です。

(私はN(0、M))を平均ゼロと共分散Mの多変量正規として読み取っています。)

私をつまずかせる部分は、「が事後分布の逆共分散行列で大まかにスケーリングすることは有用であるかもしれない...」と言っているところです。 M

そして、その直前にも、跳躍ステップ()を開始する運動量サンプルが、共分散行列をもつ多変量標準から抽出されます。 MϕM

どっち?HMCに適したMを構築するには、事後の共分散または精度行列を推定しますか?にもかかわらず、である共分散行列の運動エネルギーを用いて、の推定値である精度マトリックスより効率的なアルゴリズムをもたらす後方のか?MMM

第二の質問:ここで私を導くことができる直感は何ですか?

  • 運動量がポテンシャル/事後に対して直角に押し出されて混合を改善するように、精度行列を使用しますか?

  • または、勢いが後部の高確率の質量部分に向かってプッシュするようにしますか(そのため、そこからほとんどのサンプルを引き出します)。

psの単位行列を使用していない理由は、私の問題で、かなり高い次元(約1000)の事後の共分散行列の適切な推定値を事前に取得できるためです。M

回答:


6

位置変数の線形変換は、運動量変数の線形変換と同等です。理想的には、共分散行列が単位行列である(変換された)分布からサンプリングする必要があり、これは上記の変換によって得られます。

詳細については、ニールの「ハミルトニアンダイナミクスを使用するMCMC」、マルコフ連鎖モンテカルロハンドブックの第5章、セクション4.1(「線形変換の効果」)に説明があります。この章はここから入手できます

ニールは説明します:

ΣqqΣ=LLTLq=L1q

ΣqK(p)=pTΣp/2Σ1q=L1qK(p)=(p)TM1pM=(L1(LLT)(L1)T)1=I

いくつかの直感を与えるために、ターゲットpdfが、軸が揃っていない一方向を指している葉巻の形をしていると仮定します。スペースを回転および再スケーリングして、葉巻がボールになるようにしてから、単位多変量法線から運動量を描画するか、同等に、元のスペースを維持して運動量を描画し、それらが葉巻と整列するようにすることができます(たとえば、ほとんどの速度は葉巻の主軸に沿っているため、すばやく探索できます)。


私はそれを(数回)読んだことを告白し、この質問をすることにしました... Nealの説明と私の質問を結びつけることができれば、すべてのポイントが得られます
bill_e

Σ1M=Σ1pLTp

Σ^

4

MμΣM=Σ1ΣM互いにキャンセルし、運動方程式から消えます。解決策は、等しい周波数の発振器のセットであり、可能な限り最速の混合をもたらすと主張することができます。ここの式(2.31)-(2.35)の詳細を参照してください。

一般的なディストリビューションでは、このアプローチは単なる近似です。


0

推定された共分散を使用した線形変換運動量の顕著な部分。

Σ^

  1. ϕN(0,Σ^1)

  2. ハミルトニアンダイナミクスをシミュレートします。(L回繰り返す)

    ϕϕ+12ϵddθlogp(θy)

    θθ+ϵΣ^ϕ

    ϕϕ+12ϵddθlogp(θy)

  3. 承認/拒否。

(これが正しい場合は、これに賛成しないで、@ lacerbiに賛成してください)


1
M1Σ^

ええ、私はこれが正しいと思います。たとえば式を参照してください。この論文の(4)。
lacerbi
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.