ハミルトニアンモンテカルロ:メトロポリスヘイスティングの提案をどう理解するか?


9

私はハミルトニアンモンテカルロ(HMC)の内部の仕組みを理解しようとしていますが、決定論的な時間積分をメトロポリスヘイスティングの提案に置き換えると、その部分を完全に理解できません。私は、Michael Betancourtによる素晴らしい入門論文「A Conceptual Introduction to Hamiltonian Monte Carlo」を読んでいるので、そこで使用されているのと同じ表記に従います。

バックグラウンド

マルコフ連鎖モンテカルロ(MCMC)の一般的な目標は、ターゲット変数qの分布を近似することです。π(q)q

HMCのアイデアは、「位置」としてモデル化された元の変数qとともに、補助的な「運動量」変数を導入することです。位置と運動量のペアは拡張位相空間を形成し、ハミルトニアンダイナミクスによって記述できます。結合分布π q p は、マイクロカノニカル分解に関して記述できます。pqπ(q,p)

π(q,p)=π(θE|E)π(E)

ここで、パラメータを表しQ P 所定のエネルギー準位にEとしても知られている、典型的なセット。図については、図21および図22を参照してください。θE(q,p)E

ここに画像の説明を入力してください

元のHMC手順は、次の2つの交互のステップで構成されています。

  • エネルギーレベル間でランダムな遷移を実行する確率的ステップ、および

  • 指定されたエネルギーレベルに沿って時間積分(通常は跳躍の数値積分によって実装されます)を実行する決定論的ステップ。

この論文では、リープフロッグ(またはシンプレクティック積分器)には小さな誤差があり、数値的な偏りが生じると主張されています。したがって、それを決定論的なステップとして扱うのではなく、これをMetropolis-Hasting(MH)の提案に変えてこのステップを確率論的にする必要があります。結果の手順では、分布から正確なサンプルが得られます。

L

a(qL,pL|q0,p0)=min(1,exp(H(q0,p0)H(qL,pL)))

ご質問

私の質問は:

1)決定論的な時間積分をMH提案に変換するこの変更は、生成されたサンプルがターゲット分布に正確に従うように数値バイアスをキャンセルするのはなぜですか?

2)物理学の観点から、エネルギーは与えられたエネルギーレベルで保存されます。これが、ハミルトンの方程式を使用できる理由です。

dqdt=Hp,dpdt=Hq

H(q0,p0)H(qL,pL)

回答:


7

決定論的なハミルトニアンの軌跡は、ターゲットの分布と一致しているためにのみ有用です。特に、典型的なエネルギーの軌跡は、ターゲット分布の確率が高い領域に投影されます。 ハミルトンの方程式を正確に統合し、明示的なハミルトニアン軌道を構築できれば、完全なアルゴリズムが既にあり、受け入れステップは必要ありません

残念ながら、いくつかの非常に単純な例以外では、ハミルトンの方程式を正確に統合することはできません。 そのため、シンプレクティックインテグレーターを導入する必要があります。シンプレクティックインテグレーターは、解析的に解くことができない正確なハミルトニアン軌跡への高精度数値近似を構築するために使用されます。シンプレクティックインテグレーターに固有の小さなエラーにより、これらの数値軌跡は真の軌跡から逸脱します。したがって、数値軌跡の投影は、ターゲット分布の典型的なセットから逸脱します。この偏差を補正する方法を導入する必要があります。

ハミルトニアンモンテカルロの最初の実装では、固定長の軌跡の最後の点を1つの提案と見なし、メトロポリスの承認手順をその提案に適用しました。数値の軌跡に蓄積されたエラーが多すぎて、初期エネルギーから大きく逸脱している場合、その提案は拒否されます。言い換えると、受け入れ手順では、ターゲット分布の標準的なセットから遠く離れたところに投影されてしまうプロポーザルが破棄されるため、保持するサンプルは標準的なセットに該当するものだけになります。

概念論文で私が提唱するより現代的な実装は、実際にはMetropolis-Hastingsアルゴリズムではないことに注意してください。ランダムな軌跡をサンプリングしてから、そのランダムな軌跡からランダムな点をサンプリングすることは、シンプレクティック積分によって導入される数値誤差を修正するためのより一般的な方法です。Metropolis-Hastingsは、このより一般的なアルゴリズムを実装するための1つの方法にすぎませんが、スライスサンプリング(NUTSで行われるように)と多項式サンプリング(現在Stanで行われているように)は、より良くなくても同じように機能します。ただし、最終的には直感は同じです。ターゲットの分布からの正確なサンプルを確実にするために、数値誤差が小さいポイントを確率論的に選択しています。


H(qL,pL)H(q0,p0)

1
はい。ただし、高次元空間のボリュームがどのように機能するかによって(常に、サーフェスの内側よりもサーフェスの外側に向かってより多くのボリュームが)、軌跡は指数関数的に多くの時間を費やして、低いエネルギーよりも高いエネルギーに逸脱します。その結果、提案(より高いエネルギーを支持する)と受け入れ(低いエネルギーを支持する)を組み合わせると、初期エネルギーの周りのバランスが回復します。
Michael Betancourt 2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.