Metropolis–Hastingsアルゴリズムの受け入れ率

9

ターゲット分布をサンプリングするためのMetropolis–Hastingsアルゴリズムでは、次のようにします。

$\pi_{i}$ は状態でのターゲット密度 $i$
$\pi_j$ は、提案された状態でのターゲット密度です $j$ 。
$h_{ij}$ は、現在の状態与えられた場合の状態への遷移の提案密度です。 $j$ $i$
$a_{ij}$ は、現在の状態与えられたときに提案された状態許容確率です。 $j$ $i$

次に、詳細なバランス方程式により、提案密度選択した後 $h$ 、許容確率 $a$ は次のように計算されます：

a_{i j} = min (1, \frac{π_{j} h_{j i}}{π_{i} h_{i j}}) .

$a_{ij} = \min(1, \frac{\pi_{j} h_{ji}}{\pi_{i} h_{ij}}).$

$h$ が対称の場合、つまり $h_{ij}=h_{ji}$ 場合、

a_{i j} = min (1, \frac{π_{j}}{π_{i}}) .

$a_{ij} = \min(1, \frac{\pi_{j}}{\pi_{i}}).$

場合 $h_i$ 状態を中心ガウス分布であり $i$ と同じ分散を有する $\sigma^2$ すべてのため $i$ 、 $h$ 対称です。ウィキペディアから：

$\sigma^2$ が大きすぎる場合、MHアルゴリズムのほとんどすべてのステップが拒否されます。一方、 $\sigma^2$ が小さすぎる場合、ほとんどすべてのステップが受け入れられます。

上記の引用で述べたように、受け入れ確率が提案密度の分散の変化の逆方向に変化するのはなぜですか？

mcmc metropolis-hastings

— ティム
ソース

公式に問題があります。有限状態空間を使用してターゲット、提案、および許容確率を定義しますが、例として連続空間で動作するガウス分布を使用しています。

— 西安

@西安：ありがとう！質問を投稿したとき、離散サンプルスペースと連続サンプルスペースの違いに気付きました。したがって、私の定式化では、ターゲットと提案の分布に密度関数があり、それは許容分布の確率です。何が正しくないのかわかりません。指摘してもらえませんか？

— Tim、

公式化において、ターゲットと提案は、密度関数ではなく確率質量関数のように聞こえます。それ以外の場合、通常は整数用に予約されている記号を使用するのは非常に混乱します...、は行列要素のように見えます。これがガウシアンの提案が適合しないと思う理由です。

h_{i j}

$h_{ij}$

— 西安

11

これを取得し、問題を単純化するために、私は常に最初に、均一な（長距離）アプリオリ分布の1つのパラメーターのみを考えるので、この場合、パラメーターのMAP推定はMLEと同じになります。ただし、尤度関数がいくつかの極大値を持つほど複雑であると仮定します。

この例で1次元のMCMCが行うことは、最大確率の値が見つかるまで事後曲線を探索することです。分散が短すぎる場合、常に近くの値をサンプリングしているため、確実に極大値でスタックします。MCMCアルゴリズムは、ターゲットの分布でスタックしていると「考え」ます。ただし、分散が大きすぎる場合は、1つの極大値で立ち往生すると、最大確率の他の領域が見つかるまで、値を拒否します。MAP（または他のものよりも大きい局所最大確率の同様の領域）で値を提案した場合、分散が大きいと、他のほとんどすべての値が拒否されます。この領域と他の領域の差大きすぎます。

もちろん、上記のすべてが収束率に影響し、チェーンの「完全な」収束には影響しません。分散が何であれ、このグローバルな最大領域の値を選択する確率が正である限り、チェーンは収束することを思い出してください。

ただし、この問題を回避するには、各パラメーターのバーンイン期間にさまざまな分散を提案し、ニーズを満たすことができる特定の許容率を目指します（たとえば、を参照してください。Gelman、Roberts＆Gilksを参照）。 1995年およびGelman、Gilks＆Roberts、1997年。「良い」受け入れ率を選択する問題についてさらに学習します。これはもちろん、事後分布の形式に依存します）。もちろん、この場合、チェーンは非マルコビアンであるため、推論に使用する必要はありません。分散を調整するために使用するだけです。 $0.44$

— ネストル
ソース

+1ありがとうございます！（1）なぜ「分散が大きすぎる場合、1つの極大値で立ち往生すると、最大確率の他の領域が見つかるまで、値を多かれ少なかれ拒否することになるのですか？」（2）「偶然にMAPで値（または、他のものよりも大きい局所最大確率の同様の領域）を提案した場合、分散が大きくなると、他のほとんどすべての値が拒否されることになりますか？たまたまMAPにある提案されたポイントは、大きな分散の場合に拒否される可能性が非常に高いですか？大域的最大値なので、現状に関係なくその受け入れ確率は常に1ではないでしょうか？

— Tim

@ティム：（1）初期状態がランダムな場合を考えていました。これが当てはまる場合、平均よりも大きい局所最大確率の領域が見つかるまで、最大値から最大値にジャンプします。（2）MAPに近い値を提案した場合、その状態にジャンプする可能性が最も高くなります。いったんそこに着くと、分散が大きいため、他のすべての値はほぼ確実に拒否されます。これは、この最大確率領域のはるか外側にある値を提案するためです。

— ネストル2012年

7

この関係につながる2つの基本的な仮定があります。

定常分布はあまり速く変化しません（つまり、有限の一次導関数があります）。 $\pi(\cdot)$
の確率質量のほとんどは、ドメインの比較的小さなサブセットに集中しています（分布は「ピーク」です）。 $\pi(\cdot)$

最初に「小さな」のケースを考えてみましょう。ましょうマルコフ連鎖の現在の状態もよく、提案状態です。以来非常に小さく、私たちはその確信することができ。これを最初の仮定と組み合わせると、、つまりであることがわかります。 $\sigma^2$ $x_i$ $x_j \sim \mathcal{N}(x_i, \sigma^2)$ $\sigma^2$ $x_j \approx x_i$ $\pi(x_j) \approx \pi(x_i)$ $\frac{\pi(x_j)}{\pi(x_i)} \approx 1$

が大きい場合の受け入れ率が低いのは、2番目の仮定によるものです。正規分布の確率質量の約が平均の内にあることを思い出してください。したがって、この場合、ほとんどの提案はウィンドウ内で生成されます。大きくなり、このウィンドウには、より多くの変数のドメインのカバーするために拡張されます。2番目の仮定は、密度関数はほとんどの領域で非常に小さくなければならないことを意味します。そのため、サンプリングウィンドウが大きい場合、は非常に小さくなることがよくあります。 $\sigma^2$ $95\%$ $2\sigma$ $[x_i - 2\sigma, x_i + 2\sigma]$ $\sigma^2$ $\pi(x_j)$

ここで、少し循環推論を行います。MHサンプラーは定常分布に従って分布されたサンプルを生成することがわかっているので、ドメインの高密度領域に多くのサンプルを生成し、低密度領域にいくつかのサンプルを生成する場合に該当します。。ほとんどのサンプルは高密度領域で生成されるため、は通常大きくなります。したがって、は大きく、は小さいため、合格率はます。 $\pi$ $\pi(x_i)$ $\pi(x_i)$ $\pi(x_j)$ $\frac{\pi(x_j)}{\pi(x_i)} << 1$

これらの2つの仮定は、私たちが関心を持つ可能性が高いほとんどの分布に当てはまるため、提案幅と許容率の間のこの関係は、MHサンプラーの動作を理解するための有用なツールです。

— ドリュー
ソース

+1。ありがとう！が大きいとき、通常小さいのにが通常大きい理由がまだませんか？あなたの理由ができ小さい場合は、に適用されますことと、あなたの理由大が適用？

σ^{2}

$\sigma^2$

π (x_{i})

$\pi(x_i)$

π (x_{j})

$\pi(x_j)$

π (x_{j})

$\pi(x_j)$

π (x_{i})

$\pi(x_i)$

π (x_{i})

$\pi(x_i)$

π (x_{j})

$\pi(x_j)$

— Tim、

1

それについて考える別の方法は次のとおりです。が大きい場合、ほとんどの提案（）はターゲットの分布の下で密度が低くなります（上記の理由により、その部分は大丈夫ですか？）。提案の下で高密度の値を提案することは非常にまれであり、これが発生すると、ほぼ確実にそれを受け入れます。そこに到達すると、ありそうもない値を提案し続けます。それらの1つを受け入れることはめったにないので、現在の高密度サンプルに何度も「滞在」します。

σ^{2}

$\sigma^2$

x_{j}

$x_j$

— ドリュー