タグ付けされた質問 「metropolis-hastings」

複雑な確率分布からシミュレーションするために使用される特殊なタイプのマルコフ連鎖モンテカルロ(MCMC)アルゴリズム。それはマルコフ連鎖理論によって検証され、可能な実装の広い範囲を提供しています。

1
Metropolis Hastings、Gibbs、Importance、およびRejectionサンプリングの違いは何ですか?
私はMCMCの方法を学ぼうとしており、Metropolis Hastings、Gibbs、Importance、およびRejectionのサンプリングに出会いました。これらの違いの一部は明らかです。つまり、完全な条件式がある場合にGibbsがMetropolis Hastingsの特殊なケースであるのに対し、その他はGibbsサンプラー内でMHを使用する場合など、それほど明白ではありません。これらのそれぞれの違いの大部分を見る簡単な方法は?ありがとう!

1
人々がベイジアン推論に使用する教科書MCMCアルゴリズムに比べてよく知られている改善点は何ですか?
ある問題のためにモンテカルロシミュレーションをコーディングしていて、モデルが十分に単純な場合、非常に基本的な教科書のギブスサンプリングを使用します。Gibbsサンプリングを使用できない場合は、数年前に学んだ教科書Metropolis-Hastingsをコーディングします。私がそれに与えた唯一の考えは、ジャンプ分布またはそのパラメーターを選択することです。 これらの教科書のオプションを改善する何百もの専門的な方法があることは知っていますが、通常、それらを使用/学習することは考えません。通常、すでに非常にうまく機能しているものを少し改善するのはあまりにも多くの努力のように感じます。 しかし、最近、私がやっていることを改善できる新しい一般的な方法がないかと考えていました。それらの方法が発見されてから数十年が経ちました。たぶん私は本当に時代遅れです! メトロポリス・ヘイスティングスに代わる有名な代替品はありますか? 実装が合理的で、 MHと同様に普遍的に適用可能、 そして、何らかの意味でMHの結果を常に改善します(計算パフォーマンス、精度など)。 非常に特殊化されたモデルの非常に特殊化された改善については知っていますが、私が知らない一般的なものがありますか?

1
アダプティブMCMCは信頼できますか?
私は適応MCMCについて読んでいます(例えば、Markov Chain Monte Carloハンドブックの第4章、ed。Brooks et al。、2011、およびAndrieu&Thoms、2008を参照)。 nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 この結果は、(事後)直感的で、漸近的になります。適応の量はゼロになる傾向があるため、最終的にはエルゴード性を台無しにしません。私の懸念は、有限の時間で何が起こるかです。 与えられた有限時間に適応がエルゴード性を台無しにしていないこと、そしてサンプラーが正しい分布からサンプリングしていることをどうやって知るのでしょうか?それが理にかなっている場合、早期適応がチェーンにバイアスをかけないようにするために、どの程度のバーンインを行う必要がありますか? 現場の開業医は適応型MCMCを信頼していますか?私が試しビルドでの適応など、エルゴード性を尊重することが知られている他、より複雑な方法ですることを最近の多くの方法を見てきたので、私は求めています理由は、再生やアンサンブルの方法(すなわち、移行を選択することが合法です他の並列チェーンの状態に依存する演算子)。または、Stanなどのバーンイン中にのみ適応が実行されますが、実行時ではありません。これらのすべての取り組みは、ロバーツとローゼンタールによる適応型MCMC(実装するのは信じられないほど簡単です)が信頼できると見なされないことを示唆しています。しかし、おそらく他の理由があります。 適応メトロポリス・ヘイスティングスなどの特定の実装についてはどうですか(Haario et al。2001)? 参照資料 ローゼンタール、JS(2011)。最適なプロポーザルの分布と適応MCMC。マルコフ連鎖モンテカルロのハンドブック、93-112。 Andrieu、C.、&Thoms、J.(2008)。適応MCMCのチュートリアル。Statistics and Computing、18(4)、343-373。 ロバーツ、GO、およびローゼンタール、JS(2007)。適応マルコフ連鎖モンテカルロアルゴリズムの結合とエルゴード性。応用確率のジャーナル、458-475。 Haario、H.、Saksman、E.、&Tamminen、J.(2001)。適応メトロポリスアルゴリズム。ベルヌーイ、223-242。

2
ギブスサンプリングと一般的なMH-MCMC
私はギブスのサンプリングとメトロポリス・ヘイスティングスのアルゴリズムについて読んでいるところですが、いくつか質問があります。 私が理解しているように、ギブスサンプリングの場合、大きな多変量問題がある場合、条件付き分布からサンプリングします。つまり、他のすべてを固定したまま1つの変数をサンプリングします。 文書によると、提案されたサンプルは常に Gibbs Samplingで受け入れられます。つまり、提案受け入れ率は常に1です。 。もしそうなら、事後分布を生成するために常にギブスサンプラーを使用しない理由は何ですか?

4
実際に使用されるMetropolis-Hastingsアルゴリズム
今日私はクリスチャン・ロバートのブログを読んでいて、彼が議論していた新しいメトロポリス・ヘイスティングスのアルゴリズムがとても気に入った。シンプルで実装しやすいように見えました。 MCMCをコーディングするたびに、独立した動きやログスケールでのランダムウォークなど、非常に基本的なMHアルゴリズムに固執する傾向があります。 どのMHアルゴリズムが日常的に使用されていますか?特に: なぜ使用するのですか? ある意味では、それらは最適であると考えなければなりません-結局、それらを定期的に使用します!それでは、最適性をどのように判断しますか:コーディングの容易さ、収束、... 特に、実際に使用されるもの、つまり、独自のスキームをコード化する場合に興味があります。

1
Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはいつですか?
MCMCアルゴリズムにはさまざまな種類があります。 メトロポリス・ヘイスティングス ギブス 重要性/拒否サンプリング(関連)。 Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはなぜですか?メトロポリス・ヘイスティングスよりもギブス・サンプリングの方が推論が扱いやすい場合があると思いますが、詳細については明確ではありません。

1
メトロポリスとヘイスティングスの統合-戦略が機能しないのはなぜですか?
を統合したい関数g(x)g(x)g(x)あるとし もちろん、がエンドポイントでゼロになり、爆発がなく、素晴らしい機能であると仮定します。私がいじっていた1つの方法は、Metropolis-Hastingsアルゴリズムを使用して、正規化定数が欠落している比例する分布からサンプルリストを生成することです これをと呼び、これらのについて統計を計算します。 g(x) x 1、 x 2、…、 x n∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_nN = ∫ ∞ - ∞ G (X )D 、X P (X )F (xは)xは1g(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. 以来、、私は置換することができるキャンセルする形の発現をもたらす、積分から そのため、その領域に沿ってに統合される場合、結果を取得する必要があります。これは、必要な答えを得るために逆数を取ることができます。したがって、サンプルの範囲を取得して(ポイントを最も効果的に使用するため)、とし、描画した各サンプルに対してU(x)= 1 / rとします。そのようにU(x)f (x )= U (x )/ g …

1
スタン・
ここからダウンロードできるStanドキュメントを調べていました。Gelman-Rubin診断の実装に特に興味がありました。元の論文Gelman&Rubin(1992)は、潜在的な縮尺率(PSRF)を次のように定義しています。 ましょうであるサンプリング番目のマルコフ連鎖、および全体的な存在であるとするサンプリング独立チェーン。ましょうから平均する番目の鎖、及び全体平均です。定義、 ここで そして、定義Xi,1,…,Xi,NXi,1,…,Xi,NX_{i,1}, \dots , X_{i,N}iiiMMMX¯i⋅X¯i⋅\bar{X}_{i\cdot}ˉ X ⋅ ⋅ W = 1iiiX¯⋅⋅X¯⋅⋅\bar{X}_{\cdot \cdot}s 2 m =1W=1M∑m=1Ms2m,W=1M∑m=1Msm2,W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m}, B B = Ns2m=1N−1∑t=1N(X¯mt−X¯m⋅)2.sm2=1N−1∑t=1N(X¯mt−X¯m⋅)2.s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,. BBB B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,. 定義 PSRFはで推定されここで ここで、。√V^=(N−1N)W+(M+1MN)B.V^=(N−1N)W+(M+1MN)B.\hat{V} = \left(\dfrac{N-1}{N} \right)W …

2
MCMC Metropolis-Hastingsバリエーションと混同:ランダムウォーク、非ランダムウォーク、独立、メトロポリス
過去数週間にわたって、MCMCとMetropolis-Hastingsアルゴリズムを理解しようと試みてきました。私はそれを理解すると思うたびに、自分が間違っていることに気づきます。私がオンラインで見つけたコード例のほとんどは、説明と一致しないものを実装しています。すなわち、彼らはメトロポリス・ヘイスティングスを実装すると言いますが、実際にはランダムウォーク・メトロポリスを実装します。他の(ほぼ常に)対称提案提案分布を使用しているため、ヘイスティングス補正率の実装を静かにスキップします。実際、これまでに比率を計算する簡単な例は見つかりませんでした。それは私をさらに混乱させます。誰かが次のコード例を(すべての言語で)教えてもらえますか? バニラノンランダムウォークメトロポリスヘイスティングスアルゴリズムとヘイスティングス補正率の計算(対称プロポーザル分布を使用する場合、これが1になる場合でも)。 バニラランダムウォークメトロポリスヘイスティングスアルゴリズム。 Vanilla Independent Metropolis-Hastingsアルゴリズム。 メトロポリスとメトロポリス-ヘイスティングスの唯一の違いは、最初のアルゴリズムが常に対称分布からサンプリングしているため、ヘイスティングス補正率がないため、メトロポリスアルゴリズムを提供する必要はありません。アルゴリズムの詳細な説明をする必要はありません。私は基本を理解していますが、Metropolis-Hastingsアルゴリズムのさまざまなバリエーションのすべての異なる名前と、Vanillaの非ランダムウォークMHにヘイスティングス補正率を実際に実装する方法と混同されています。ほとんどの場合既に質問を見たことがあるため、私の質問に部分的に答える貼り付けリンクをコピーしないでください。それらのリンクは私をこの混乱に導いた。ありがとうございました。

4
マルコフ性に影響を与えることなく、ランダムウォークMH MCMCの提案分布を変更できますか?
対称提案によるランダムウォークメトロポリスハシティング q(x | y)= g(| y− x | )q(バツ|y)=g(|y−バツ|)q(x|y)= g(|y-x|) は、許容確率 P(a c c e p t y )= min { 1 、f(y)/ f(x )}P(accept y)=分{1、f(y)/f(バツ)}P(accept\ y) = \min\{1, f(y)/f(x)\} 提案g(\ cdot)に依存しませんg(⋅ )g(⋅)g(\cdot)。 つまり、チェーンのマルコフ性に影響を与えることなく、チェーンの以前のパフォーマンスの関数としてg(⋅ )g(⋅)g(\cdot)を変更できるということですか? 私が特に興味を持っているのは、受け入れ率の関数としての標準提案のスケーリングの調整です。 また、この種の問題に対して実際に使用されている適応アルゴリズムを誰かが指摘していただければ幸いです。 どうもありがとう。 [編集:robertsyとwokが提供するリファレンスから始めて、MH適応アルゴリズムに関する次のリファレンスを見つけました。 アンドリュー、クリストフ、エリックムーラン。2006. 適応MCMCアルゴリズムのエルゴード性について。応用確率の16、いいえ。3:1462-1505。http://www.jstor.org/stable/25442804。 アンドリュー、クリストフ、ヨハネストムズ。 2008.適応MCMCのチュートリアル。統計とコンピューティング18、いいえ。4(12):343-373。doi:10.1007 / s11222-008-9110-y http://www.springerlink.com/content/979087678366r78v/。 Atchadé、Y.、G。Fort、E。Moulines、およびP. Priouret。2009. 適応マルコフ連鎖モンテカルロ:理論と方法。プレプリント。 イブ・アチャデ …

1
非対称のプロポーザル分布を使用したMetropolis-Hastingsの理解
モデルのパラメーターを推定するためのコード(つまり)を記述するために、Metropolis-Hastingsアルゴリズムを理解しようとしています。参考文献によると、Metropolis-Hastingsアルゴリズムには次の手順があります。f(x )= a ∗ xf(バツ)=a∗バツf(x)=a*x を生成しYt〜Q(y| バツt)Yt〜q(y|バツt)Y_t \sim q(y|x^t) バツt + 1= { Yt、バツt、確率でρ (xt、Yt)、確率で1 - ρ (Xt、Yt)、バツt+1={Yt、確率でρ(バツt、Yt)、バツt、確率で1−ρ(バツt、Yt)、X^{t+1}=\begin{cases} Y^t, & \text{with probability} \quad \rho(x^t,Y_t), \\ x^t, & \text{with probability} \quad 1-\rho(x^t,Y_t), \end{cases} ここで、ρ (x 、y)= 最小(f(y)f(x )∗ q(x | y)q(y| x)、1 )ρ(バツ、y)=分(f(y)f(バツ)∗q(バツ|y)q(y|バツ)、1)\rho(x,y)=\min \left( \frac{f(y)}{f(x)}*\frac{q(x|y)}{q(y|x)},1 \right) いくつか質問したい方法: 書誌では、qqqが対称分布の場合、比率q(x | y)/ q(y| …

1
MCMCとMetropolis-Hastingsアルゴリズムについて
過去数日間、私はマルコフ連鎖モンテカルロ法(MCMC)の仕組みを理解しようと試みてきました。特に、Metropolis-Hastingsアルゴリズムを理解して実装しようとしています。これまでのところ、私はアルゴリズムの全体的な理解を持っていると思いますが、私にはまだ明確ではないいくつかの事柄があります。MCMCを使用して、一部のモデルをデータに適合させたい。このため、観測データDに直線を当てはめるためのMetropolis-Hastingsアルゴリズムの理解について説明します。f(x)=axf(x)=axf(x)=axDDD 1)の初期推測を行い。このセットAを私たちの現在とA(0)。また、マルコフ連鎖の最後にaを追加します(C)。aaaaaaaaaa0a0a_0aaaCCC 2)以下の手順を数回繰り返します。 3)0およびDが与えられた現在の尤度()を評価します。L0L0{\cal L_0}a0a0a_0DDD 4)μ = a 0およびσ = s t e p s i z eの正規分布からサンプリングすることにより、新しい(a 1)を提案します。今のところ、s t e p s i z eは一定です。aaaa1a1a_1μ=a0μ=a0\mu=a_0σ=stepsizeσ=stepsize\sigma=stepsizestepsizestepsizestepsize 5)1とDが与えられた場合、新しい尤度()を評価します。L1L1{\cal L_1}a1a1a_1DDD 6)がL 0よりも大きい場合、新しいa 0として1を受け入れ、 Cの末尾に追加してステップ2に進みます。L1L1{\cal L_1}L0L0{\cal L_0}a1a1a_1a0a0a_0CCC 7)がL 0よりも小さい場合、一様分布から範囲[0,1]の数(U)を生成しますL1L1{\cal L_1}L0L0{\cal L_0}UUU 8)が2つの尤度の差(L 1 - L 0)より小さい場合、新しいa 0として1を受け入れ、 Cの末尾に追加してステップ2に進みます。UUUL1L1{\cal L_1}L0L0{\cal L_0}a1a1a_1a0a0a_0CCC 9)が2つの尤度の差(L 1 - …

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Metropolis-Hastingsアルゴリズムを使用したMCMC:提案の選択
3パラメータ関数の積分を評価するためにシミュレーションを行う必要があります。これは、非常に複雑な式を持つと言います。MCMC法を使用して計算し、Metropolis-Hastingsアルゴリズムを実装してとして分布する値を生成するように求められ、提案分布として3変量正規を使用することが提案されました。それに関するいくつかの例を読んで、いくつかは固定パラメータ法線を使用し、変数平均で使用するものを見ました。ここで、は最後に受け入れられた値ですに従って分配される。私は両方のアプローチについていくつか疑問があります:f N (μ 、σ )N (X 、σ )X fffffffN(μ 、σ)N(μ,σ)N(\mu, \sigma)N(X、σ)N(X,σ)N(X, \sigma)バツXXfff 1)最後に受け入れられた値を提案分布の新しい平均として選択する意味は何ですか?私の直感は、私たちの値がとして分散された値に近くなり、受け入れられる可能性が高くなることを保証するはずだと述べています。しかし、それは私たちのサンプルを集中しすぎていませんか?さらにサンプルを取得すると、チェーンが静止することが保証されますか?fff 2)固定パラメーター(は分析が本当に難しいため)を選択するのは非常に難しく、アルゴリズムを開始するために選択する必要がある最初のサンプルに依存しませんか?この場合、どちらが優れているかを見つけるための最良のアプローチは何でしょうか?fff これらのアプローチの1つは他のアプローチよりも優れていますか、それともケースによって異なりますか? 私の疑問が明確になり、いくつかの文学が提供されたらうれしいと思います(テーマについていくつかの論文を読んだことがありますが、もっと多い方がいいです!) 前もって感謝します!

1
とサンプリングコスト
次のシミュレーション問題に遭遇しました:既知の実数のセットが与えられた場合、分布は ここで、は正の部分を示します。この分布をターゲットとするMetropolis-Hastingsサンプラーを考えることもできますが、アルゴリズムの次数をから。{ω1,…,ωd}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\}{−1,1}d{−1,1}d\{-1,1\}^dP(X=(x1,…,xd))∝(x1ω1+…+xdωd)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+(z)+(z)+(z)_+zzzO(2d)O(2d)O(2^d)O(d)O(d)O(d)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.