ハミルトニアンダイナミクスがMCMCのランダムウォークの提案よりも優れている場合があるのはなぜですか？

10

ハミルトニアンダイナミクスは常に、メトロポリスアルゴリズムのランダムウォークより常に優れています。誰かがあまり数学を使わずに単純な言葉で理由を説明できますか？

mcmc

— フライバック
ソース

1

@JuhoKokkala、一般に、高次元の問題では、ランダムウォークの提案は良いパフォーマンスを発揮しませんが、ハミトニアルダイナミクスはそうです。

— Fly_back 2017

@JuhoKokkala HMCについての私の理解は、ハミルトニアン動的システムで低エネルギーHのサンプルを取得し、次に、ハミルトニアン力学によって提案されたサンプルを常に受け入れることができるというクイズを思いついたということです。

— Fly_back 2017

3

11月の初めに、Andrew Gelmanは、Michael Betancourtによる "美しい新しい論文"について、HMCがランダムMCMCより優れている理由についてのメモを投稿しました。Gelmanの主なポイントは、HMCが競合するメソッドの少なくとも2倍の速さであるということでした。 andrewgelman.com/2016/11/03/…–

— マイクハンター

2

この質問は少し具体的ではありませんが、以下に投稿された回答を考えると、答えがはっきりしないとは思いません。私は開いたままにすることに投票します。

— ガン-モニカを元に戻す

14

まず第一に、HMC（ハミルトニアンモンテカルロ）の受け入れ率が常にメトロポリスアルゴリズムの受け入れ率よりも高いとは信じていません。@JuhoKokkalaで述べたように、Metropolisの受け入れ率は調整可能であり、受け入れ率が高いからといって、アルゴリズムが事後分布の調査に優れているとは限りません。非常に狭い提案分布（たとえば、と非常に小さい）を使用すると、非常に高い受け入れ率が得られます。ただし、事後分布全体を調査することなく、基本的に常に同じ場所にとどまっているからです。 $T(q|q')=\mathcal{N}(q',\sigma I)$ $\sigma$

ハミルトニアンモンテカルロのパフォーマンスが（場合によっては）メトロポリスよりも優れている理由は、あなたが本当に求めていると思います（私が正しい場合は、それに応じて質問を編集してください）。「より良いパフォーマンス」とは、多くのアプリケーションで、HMC によって生成されたチェーンを、メトロポリスアルゴリズムによって生成された同じ長さ（同じ数のサンプル）のチェーンと比較すると、HMCチェーンがメトロポリスチェーンは、負の対数尤度の低い値（または同様の値ですが、反復回数は少なくなります）を検出します。有効なサンプルサイズは小さくなり、サンプルの自己相関は遅延とともに速く減衰します。 $N$

数学的な詳細にあまり深く入り込むことなく、なぜそれが起こるのかを考えさせます。したがって、まず最初に、MCMCアルゴリズムは一般に、ターゲット密度に関する関数（または複数の関数）高次元積分（期待）を計算するのに有用であることを思い出してください。ターゲット密度から直接サンプリングする方法： $f$ $\pi(q)$

$\mathbb{E}_{\pi}{[f]}=\int_{\mathcal{Q}} f(q)\pi(q)\text{d}q_1\dots\text{d}q_d$

ここで、はと依存するパラメータのベクトルであり、はパラメータ空間です。ここで、高次元では、上記の積分に最も寄与するパラメーター空間のボリュームは、モードの近傍ではありません（つまり、のMLE推定の周りの狭いボリュームではありません）。ここでは大きいですが、体積は非常に小さいです。 $q$ $d$ $f$ $\pi$ $\mathcal{Q}$ $\pi(q)$ $q$ $\pi(q)$

たとえば、その座標が平均0と単位分散0の独立したガウス変数である場合、の原点からの点平均距離を計算するとします。次に、上記の積分は次のようになります。 $q$ $\mathbb{R}^d$

$\mathbb{E}_{\pi}{[X]}=\int_{\mathcal{Q}} ||q||(2\pi)^{-d/2}\exp{(-||q||^2/2)}\text{d}q_1\dots\text{d}q_d$

これで、ターゲット密度は明らかに0で最大になります。ただし、球座標への導入と導入、被積分関数が比例することがわかります。この関数は、原点からある距離で明らかに最大値を持っています。積分の値に最も寄与する内の領域は典型的なセットと呼ばれ、この積分の典型的なセットは半径球殻です。 $\pi(q)=(2\pi)^{-d/2}\exp{(-||q||^2/2)}$ $r=||q||$ $r^{d-1}\exp{(-r^2/2)} \text{d}r$ $\mathcal{Q}$ $R\propto\sqrt{d}$

これで、MCMCによって生成されたマルコフチェーンが理想的な条件で最初に典型的なセットのポイントに収束し、次にセット全体の探索を開始し、最後にセットの詳細を探索し続けることがわかります。これを行うことで、MCMCの期待値の推定はますます正確になり、バイアスと分散はステップ数の増加とともに減少します。

ただし、典型的なセットのジオメトリが複雑な場合（たとえば、2次元の尖点がある場合）、標準のランダムウォークメトロポリスアルゴリズムでは、セットの「病理学的」詳細を調査するのに多くの困難があります。探索せずに、これらの領域の「周り」をランダムにジャンプする傾向があります。実際には、これは、積分の推定値が正しい値を中心に変動する傾向があることを意味し、有限数のステップでチェーンを中断すると、推定値が大きくバイアスされます。

ハミルトニアンモンテカルロは、ターゲット分布に関係のない提案分布を単に使用するのではなく、ターゲット分布に含まれる情報（勾配内）を使用して新しいサンプルポイントの提案を通知することにより、この問題を克服しようとします。したがって、HMCがターゲット分布の導関数を使用してパラメーター空間をより効率的に探索すると言うのはそのためです。ただし、目標分布の勾配だけでは、提案ステップを通知するには不十分です。原点からのランダムな点の平均距離の例のように $\mathbb{R}^d$ 、ターゲットの分布の勾配は、それ自体、分布のモードに向かっていますが、モードの周りの領域は、必ずしも上記の積分に最も寄与する領域ではありません。つまり、典型的なセットではありません。

正しい方向を取得するために、HMCでは、運動量変数と呼ばれる変数の補助セットを導入します。物理的なアナログがここで役立ちます。惑星の周りを周回する衛星は、その運動量に「正しい」値がある場合にのみ安定した軌道に留まります。それ以外の場合は、漂流して空地に移動するか、重力によって惑星に向かって引き寄せられます（ここで役割を果たす）モードに向かって「引っ張る」ターゲット密度の勾配の）。同様に、運動量パラメータは、新しいサンプルをテールまたはモードに向かってドリフトさせるのではなく、通常のセット内に維持する役割を果たします。

これは、過度の数学を使わずにハミルトニアンモンテカルロを説明した、Michael Betancourtによる非常に興味深い論文の短い要約です。あなたは、かなりのより詳細に行くの紙を、見つけることができるここに。

IMOでは、HMCがランダムウォークメトロポリスよりも性能が劣る場合とその理由について、このペーパーでは十分に詳しく説明していません。これは（私の限られた経験では）頻繁に発生するわけではありませんが、発生する可能性があります。結局のところ、グラデーションを導入すると、高次元のパラメーター空間での道を見つけることができますが、問題の次元も2倍になります。理論的には、次元の増加によるスローダウンが、勾配の利用によって与えられる加速に打ち勝つ可能性があります。また（これについては本書で説明します）、一般的なセットに高い曲率の領域がある場合、HMCは「オーバーシュート」する可能性があります。しかしながら、これにより、HMCを数値的に実装するために実際に使用されるシンプレクティック積分器が不安定になります。したがって、この種の問題は簡単に診断できます。

— DeltaIV
ソース

1

私が回答を書いているときに、@ DJohnsonもBetancourtの論文を引用したことがわかります。しかし、私は答えが紙で見つけることができるものの要約としてまだ役立つと思います。

— DeltaIV 2017

3

@JuhoKokkalaがコメントで述べたように、高い受け入れ率は必ずしも良いパフォーマンスをもたらすとは限りません。メトロポリスヘイスティングスの受け入れ率は、提案の分布を縮小することで向上させることができます。ただし、これにより、実行するステップが小さくなり、ターゲットの分布の探索に時間がかかるようになります。実際には、ステップサイズと許容率の間にはトレードオフがあり、良好なパフォーマンスを得るには適切なバランスが必要です。

ハミルトニアンモンテカルロは、より高い確率でより遠くのポイントに到達できるため、メトロポリスヘイスティングスをしのぐ傾向があります。したがって、問題は、HMCはMH よりも遠い点で受け入れ確率が高い傾向があるのはなぜですか？

MHは、ターゲットの分布に関する情報を使用せずに提案が行われるため、遠方に到達するのが困難です。提案の分布は通常、等方性です（たとえば、対称ガウス）。したがって、各ポイントで、アルゴリズムはランダムな距離をランダムな方向に移動しようとします。ターゲットの分布がその方向に変化する速さに比べて距離が短い場合、現在のポイントと新しいポイントの密度が類似している可能性が高く、少なくとも許容できる妥当なチャンスがあります。距離が長くなると、ターゲットの分布が現在のポイントと比べてかなり変化した可能性があります。そのため、特に次元数が増加するにつれて、同様の密度または（できれば）より高い密度のポイントをランダムに見つける可能性は低くなる可能性があります。たとえば、現在のポイントが狭い尾根にある場合、

対照的に、HMCはターゲット配布の構造を利用します。その提案メカニズムは、Neal（2012）で説明されているように、物理的なアナロジーを使用すると考えることができます。丘のある摩擦のない表面を滑るパックを想像してみてください。パックの位置は現在のポイントを表し、表面の高さはターゲット分布の負の対数を表します。新たに提案されたポイントを取得するために、パックにはランダムな方向と大きさの運動量が与えられ、それが表面上をスライドするときにそのダイナミクスがシミュレーションされます。パックは、下り坂の方向に加速し、上り坂の方向に減速します（おそらく停止して、再び下り坂に戻ってスライドします）。谷の壁に沿って横に移動する軌道は、下向きに湾曲します。したがって、景観自体が軌道に影響を与え、それをより高い確率の領域に引き寄せます。勢いは、パックが小さな丘を越えてクレストすることを可能にし、小さな盆地をオーバーシュートすることもできます。いくつかのタイムステップの後のパックの位置は、標準のメトロポリスルールを使用して承認または拒否される、新しく提案されたポイントを提供します。ターゲット分布（およびその勾配）を活用することで、HMCは高い受け入れ率で遠方のポイントに到達できます。

ここに良いレビューがあります：

ニール（2012）。ハミルトニアンダイナミクスを使用するMCMC。

— user20160
ソース

0

大まかな答えとして（これはあなたが探しているもののようです）、ハミルトニアンメソッドは対数尤度の導関数を考慮に入れますが、標準のMHアルゴリズムは考慮しません。

— bdeonovic
ソース