統計とビッグデータ metropolis-hastings

1

Metropolis Hastings、Gibbs、Importance、およびRejectionサンプリングの違いは何ですか？

私はMCMCの方法を学ぼうとしており、Metropolis Hastings、Gibbs、Importance、およびRejectionのサンプリングに出会いました。これらの違いの一部は明らかです。つまり、完全な条件式がある場合にGibbsがMetropolis Hastingsの特殊なケースであるのに対し、その他はGibbsサンプラー内でMHを使用する場合など、それほど明白ではありません。これらのそれぞれの違いの大部分を見る簡単な方法は？ありがとう！

36 mcmc monte-carlo gibbs metropolis-hastings importance-sampling

1

人々がベイジアン推論に使用する教科書MCMCアルゴリズムに比べてよく知られている改善点は何ですか？

ある問題のためにモンテカルロシミュレーションをコーディングしていて、モデルが十分に単純な場合、非常に基本的な教科書のギブスサンプリングを使用します。Gibbsサンプリングを使用できない場合は、数年前に学んだ教科書Metropolis-Hastingsをコーディングします。私がそれに与えた唯一の考えは、ジャンプ分布またはそのパラメーターを選択することです。これらの教科書のオプションを改善する何百もの専門的な方法があることは知っていますが、通常、それらを使用/学習することは考えません。通常、すでに非常にうまく機能しているものを少し改善するのはあまりにも多くの努力のように感じます。しかし、最近、私がやっていることを改善できる新しい一般的な方法がないかと考えていました。それらの方法が発見されてから数十年が経ちました。たぶん私は本当に時代遅れです！メトロポリス・ヘイスティングスに代わる有名な代替品はありますか？実装が合理的で、 MHと同様に普遍的に適用可能、そして、何らかの意味でMHの結果を常に改善します（計算パフォーマンス、精度など）。非常に特殊化されたモデルの非常に特殊化された改善については知っていますが、私が知らない一般的なものがありますか？

21 bayesian mcmc gibbs metropolis-hastings

1

アダプティブMCMCは信頼できますか？

私は適応MCMCについて読んでいます（例えば、Markov Chain Monte Carloハンドブックの第4章、ed。Brooks et al。、2011、およびAndrieu＆Thoms、2008を参照）。 nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 この結果は、（事後）直感的で、漸近的になります。適応の量はゼロになる傾向があるため、最終的にはエルゴード性を台無しにしません。私の懸念は、有限の時間で何が起こるかです。与えられた有限時間に適応がエルゴード性を台無しにしていないこと、そしてサンプラーが正しい分布からサンプリングしていることをどうやって知るのでしょうか？それが理にかなっている場合、早期適応がチェーンにバイアスをかけないようにするために、どの程度のバーンインを行う必要がありますか？現場の開業医は適応型MCMCを信頼していますか？私が試しビルドでの適応など、エルゴード性を尊重することが知られている他、より複雑な方法ですることを最近の多くの方法を見てきたので、私は求めています理由は、再生やアンサンブルの方法（すなわち、移行を選択することが合法です他の並列チェーンの状態に依存する演算子）。または、Stanなどのバーンイン中にのみ適応が実行されますが、実行時ではありません。これらのすべての取り組みは、ロバーツとローゼンタールによる適応型MCMC（実装するのは信じられないほど簡単です）が信頼できると見なされないことを示唆しています。しかし、おそらく他の理由があります。適応メトロポリス・ヘイスティングスなどの特定の実装についてはどうですか（Haario et al。2001）？参照資料ローゼンタール、JS（2011）。最適なプロポーザルの分布と適応MCMC。マルコフ連鎖モンテカルロのハンドブック、93-112。 Andrieu、C.、＆Thoms、J.（2008）。適応MCMCのチュートリアル。Statistics and Computing、18（4）、343-373。ロバーツ、GO、およびローゼンタール、JS（2007）。適応マルコフ連鎖モンテカルロアルゴリズムの結合とエルゴード性。応用確率のジャーナル、458-475。 Haario、H.、Saksman、E.、＆Tamminen、J.（2001）。適応メトロポリスアルゴリズム。ベルヌーイ、223-242。

20 simulation mcmc random-generation metropolis-hastings

2

ギブスサンプリングと一般的なMH-MCMC

私はギブスのサンプリングとメトロポリス・ヘイスティングスのアルゴリズムについて読んでいるところですが、いくつか質問があります。私が理解しているように、ギブスサンプリングの場合、大きな多変量問題がある場合、条件付き分布からサンプリングします。つまり、他のすべてを固定したまま1つの変数をサンプリングします。文書によると、提案されたサンプルは常に Gibbs Samplingで受け入れられます。つまり、提案受け入れ率は常に1です。。もしそうなら、事後分布を生成するために常にギブスサンプラーを使用しない理由は何ですか？

20 bayesian sampling mcmc gibbs metropolis-hastings

4

実際に使用されるMetropolis-Hastingsアルゴリズム

今日私はクリスチャン・ロバートのブログを読んでいて、彼が議論していた新しいメトロポリス・ヘイスティングスのアルゴリズムがとても気に入った。シンプルで実装しやすいように見えました。 MCMCをコーディングするたびに、独立した動きやログスケールでのランダムウォークなど、非常に基本的なMHアルゴリズムに固執する傾向があります。どのMHアルゴリズムが日常的に使用されていますか？特に：なぜ使用するのですか？ある意味では、それらは最適であると考えなければなりません-結局、それらを定期的に使用します！それでは、最適性をどのように判断しますか：コーディングの容易さ、収束、... 特に、実際に使用されるもの、つまり、独自のスキームをコード化する場合に興味があります。

20 mcmc metropolis-hastings

1

Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはいつですか？

MCMCアルゴリズムにはさまざまな種類があります。メトロポリス・ヘイスティングスギブス重要性/拒否サンプリング（関連）。 Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはなぜですか？メトロポリス・ヘイスティングスよりもギブス・サンプリングの方が推論が扱いやすい場合があると思いますが、詳細については明確ではありません。

20 bayesian simulation mcmc gibbs metropolis-hastings

1

メトロポリスとヘイスティングスの統合-戦略が機能しないのはなぜですか？

を統合したい関数g(x)g(x)g(x)あるとしもちろん、がエンドポイントでゼロになり、爆発がなく、素晴らしい機能であると仮定します。私がいじっていた1つの方法は、Metropolis-Hastingsアルゴリズムを使用して、正規化定数が欠落している比例する分布からサンプルリストを生成することですこれをと呼び、これらのについて統計を計算します。 g（x） x 1、 x 2、…、 x n∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_nN = ∫ ∞ - ∞ G （X ）D 、X P （X ）F （xは）xは1g(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. 以来、、私は置換することができるキャンセルする形の発現をもたらす、積分からそのため、その領域に沿ってに統合される場合、結果を取得する必要があります。これは、必要な答えを得るために逆数を取ることができます。したがって、サンプルの範囲を取得して（ポイントを最も効果的に使用するため）、とし、描画した各サンプルに対してU（x）= 1 / rとします。そのようにU（x）f （x ）= U （x ）/ g …

16 simulation monte-carlo metropolis-hastings numerical-integration

1

スタン・

ここからダウンロードできるStanドキュメントを調べていました。Gelman-Rubin診断の実装に特に興味がありました。元の論文Gelman＆Rubin（1992）は、潜在的な縮尺率（PSRF）を次のように定義しています。ましょうであるサンプリング番目のマルコフ連鎖、および全体的な存在であるとするサンプリング独立チェーン。ましょうから平均する番目の鎖、及び全体平均です。定義、ここでそして、定義Xi,1,…,Xi,NXi,1,…,Xi,NX_{i,1}, \dots , X_{i,N}iiiMMMX¯i⋅X¯i⋅\bar{X}_{i\cdot}ˉ X ⋅ ⋅ W = 1iiiX¯⋅⋅X¯⋅⋅\bar{X}_{\cdot \cdot}s 2 m =1W=1M∑m=1Ms2m,W=1M∑m=1Msm2,W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m}, B B = Ns2m=1N−1∑t=1N(X¯mt−X¯m⋅)2.sm2=1N−1∑t=1N(X¯mt−X¯m⋅)2.s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,. BBB B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,. 定義 PSRFはで推定されここでここで、。√V^=(N−1N)W+(M+1MN)B.V^=(N−1N)W+(M+1MN)B.\hat{V} = \left(\dfrac{N-1}{N} \right)W …

16 mcmc convergence gibbs metropolis-hastings stan

2

MCMC Metropolis-Hastingsバリエーションと混同：ランダムウォーク、非ランダムウォーク、独立、メトロポリス

過去数週間にわたって、MCMCとMetropolis-Hastingsアルゴリズムを理解しようと試みてきました。私はそれを理解すると思うたびに、自分が間違っていることに気づきます。私がオンラインで見つけたコード例のほとんどは、説明と一致しないものを実装しています。すなわち、彼らはメトロポリス・ヘイスティングスを実装すると言いますが、実際にはランダムウォーク・メトロポリスを実装します。他の（ほぼ常に）対称提案提案分布を使用しているため、ヘイスティングス補正率の実装を静かにスキップします。実際、これまでに比率を計算する簡単な例は見つかりませんでした。それは私をさらに混乱させます。誰かが次のコード例を（すべての言語で）教えてもらえますか？バニラノンランダムウォークメトロポリスヘイスティングスアルゴリズムとヘイスティングス補正率の計算（対称プロポーザル分布を使用する場合、これが1になる場合でも）。バニラランダムウォークメトロポリスヘイスティングスアルゴリズム。 Vanilla Independent Metropolis-Hastingsアルゴリズム。メトロポリスとメトロポリス-ヘイスティングスの唯一の違いは、最初のアルゴリズムが常に対称分布からサンプリングしているため、ヘイスティングス補正率がないため、メトロポリスアルゴリズムを提供する必要はありません。アルゴリズムの詳細な説明をする必要はありません。私は基本を理解していますが、Metropolis-Hastingsアルゴリズムのさまざまなバリエーションのすべての異なる名前と、Vanillaの非ランダムウォークMHにヘイスティングス補正率を実際に実装する方法と混同されています。ほとんどの場合既に質問を見たことがあるため、私の質問に部分的に答える貼り付けリンクをコピーしないでください。それらのリンクは私をこの混乱に導いた。ありがとうございました。

15 mcmc metropolis-hastings

4

マルコフ性に影響を与えることなく、ランダムウォークMH MCMCの提案分布を変更できますか？

対称提案によるランダムウォークメトロポリスハシティング q（x | y）= g（| y− x | ）q（バツ|y）=g（|y−バツ|）q(x|y)= g(|y-x|) は、許容確率 P（a c c e p t y ）= min { 1 、f（y）/ f（x ）}P（accept y）=分{1、f（y）/f（バツ）}P(accept\ y) = \min\{1, f(y)/f(x)\} 提案g（\ cdot）に依存しませんg（⋅ ）g（⋅）g(\cdot)。つまり、チェーンのマルコフ性に影響を与えることなく、チェーンの以前のパフォーマンスの関数としてg（⋅ ）g（⋅）g(\cdot)を変更できるということですか？私が特に興味を持っているのは、受け入れ率の関数としての標準提案のスケーリングの調整です。また、この種の問題に対して実際に使用されている適応アルゴリズムを誰かが指摘していただければ幸いです。どうもありがとう。 [編集：robertsyとwokが提供するリファレンスから始めて、MH適応アルゴリズムに関する次のリファレンスを見つけました。アンドリュー、クリストフ、エリックムーラン。2006. 適応MCMCアルゴリズムのエルゴード性について。応用確率の16、いいえ。3：1462-1505。http://www.jstor.org/stable/25442804。アンドリュー、クリストフ、ヨハネストムズ。 2008.適応MCMCのチュートリアル。統計とコンピューティング18、いいえ。4（12）：343-373。doi：10.1007 / s11222-008-9110-y http://www.springerlink.com/content/979087678366r78v/。 Atchadé、Y.、G。Fort、E。Moulines、およびP. Priouret。2009. 適応マルコフ連鎖モンテカルロ：理論と方法。プレプリント。イブ・アチャデ …

14 mcmc metropolis-hastings

1

非対称のプロポーザル分布を使用したMetropolis-Hastingsの理解

モデルのパラメーターを推定するためのコード（つまり）を記述するために、Metropolis-Hastingsアルゴリズムを理解しようとしています。参考文献によると、Metropolis-Hastingsアルゴリズムには次の手順があります。f（x ）= a ∗ xf（バツ）=a∗バツf(x)=a*x を生成しYt〜Q（y| バツt）Yt〜q（y|バツt）Y_t \sim q(y|x^t) バツt + 1= { Yt、バツt、確率でρ （xt、Yt）、確率で1 - ρ （Xt、Yt）、バツt+1={Yt、確率でρ（バツt、Yt）、バツt、確率で1−ρ（バツt、Yt）、X^{t+1}=\begin{cases} Y^t, & \text{with probability} \quad \rho(x^t,Y_t), \\ x^t, & \text{with probability} \quad 1-\rho(x^t,Y_t), \end{cases} ここで、ρ （x 、y）= 最小（f（y）f（x ）∗ q（x | y）q（y| x）、1 ）ρ（バツ、y）=分（f（y）f（バツ）∗q（バツ|y）q（y|バツ）、1）\rho(x,y)=\min \left( \frac{f(y)}{f(x)}*\frac{q(x|y)}{q(y|x)},1 \right) いくつか質問したい方法：書誌では、qqqが対称分布の場合、比率q（x | y）/ q（y| …

13 mcmc metropolis-hastings

1

MCMCとMetropolis-Hastingsアルゴリズムについて

過去数日間、私はマルコフ連鎖モンテカルロ法（MCMC）の仕組みを理解しようと試みてきました。特に、Metropolis-Hastingsアルゴリズムを理解して実装しようとしています。これまでのところ、私はアルゴリズムの全体的な理解を持っていると思いますが、私にはまだ明確ではないいくつかの事柄があります。MCMCを使用して、一部のモデルをデータに適合させたい。このため、観測データDに直線を当てはめるためのMetropolis-Hastingsアルゴリズムの理解について説明します。f(x)=axf(x)=axf(x)=axDDD 1）の初期推測を行い。このセットAを私たちの現在とA（0）。また、マルコフ連鎖の最後にaを追加します（C）。aaaaaaaaaa0a0a_0aaaCCC 2）以下の手順を数回繰り返します。 3）0およびDが与えられた現在の尤度（）を評価します。L0L0{\cal L_0}a0a0a_0DDD 4）μ = a 0およびσ = s t e p s i z eの正規分布からサンプリングすることにより、新しい（a 1）を提案します。今のところ、s t e p s i z eは一定です。aaaa1a1a_1μ=a0μ=a0\mu=a_0σ=stepsizeσ=stepsize\sigma=stepsizestepsizestepsizestepsize 5）1とDが与えられた場合、新しい尤度（）を評価します。L1L1{\cal L_1}a1a1a_1DDD 6）がL 0よりも大きい場合、新しいa 0として1を受け入れ、 Cの末尾に追加してステップ2に進みます。L1L1{\cal L_1}L0L0{\cal L_0}a1a1a_1a0a0a_0CCC 7）がL 0よりも小さい場合、一様分布から範囲[0,1]の数（U）を生成しますL1L1{\cal L_1}L0L0{\cal L_0}UUU 8）が2つの尤度の差（L 1 - L 0）より小さい場合、新しいa 0として1を受け入れ、 Cの末尾に追加してステップ2に進みます。UUUL1L1{\cal L_1}L0L0{\cal L_0}a1a1a_1a0a0a_0CCC 9）が2つの尤度の差（L 1 - …

13 mcmc metropolis-hastings

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Metropolis-Hastingsアルゴリズムを使用したMCMC：提案の選択

3パラメータ関数の積分を評価するためにシミュレーションを行う必要があります。これは、非常に複雑な式を持つと言います。MCMC法を使用して計算し、Metropolis-Hastingsアルゴリズムを実装してとして分布する値を生成するように求められ、提案分布として3変量正規を使用することが提案されました。それに関するいくつかの例を読んで、いくつかは固定パラメータ法線を使用し、変数平均で使用するものを見ました。ここで、は最後に受け入れられた値ですに従って分配される。私は両方のアプローチについていくつか疑問があります：f N （μ 、σ ）N （X 、σ ）X fffffffN（μ 、σ）N(μ,σ)N(\mu, \sigma)N（X、σ）N(X,σ)N(X, \sigma)バツXXfff 1）最後に受け入れられた値を提案分布の新しい平均として選択する意味は何ですか？私の直感は、私たちの値がとして分散された値に近くなり、受け入れられる可能性が高くなることを保証するはずだと述べています。しかし、それは私たちのサンプルを集中しすぎていませんか？さらにサンプルを取得すると、チェーンが静止することが保証されますか？fff 2）固定パラメーター（は分析が本当に難しいため）を選択するのは非常に難しく、アルゴリズムを開始するために選択する必要がある最初のサンプルに依存しませんか？この場合、どちらが優れているかを見つけるための最良のアプローチは何でしょうか？fff これらのアプローチの1つは他のアプローチよりも優れていますか、それともケースによって異なりますか？私の疑問が明確になり、いくつかの文学が提供されたらうれしいと思います（テーマについていくつかの論文を読んだことがありますが、もっと多い方がいいです！）前もって感謝します！

11 mcmc metropolis-hastings

1

とサンプリングコスト

次のシミュレーション問題に遭遇しました：既知の実数のセットが与えられた場合、分布はここで、は正の部分を示します。この分布をターゲットとするMetropolis-Hastingsサンプラーを考えることもできますが、アルゴリズムの次数をから。{ω1,…,ωd}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\}{−1,1}d{−1,1}d\{-1,1\}^dP(X=(x1,…,xd))∝(x1ω1+…+xdωd)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+(z)+(z)+(z)_+zzzO(2d)O(2d)O(2^d)O(d)O(d)O(d)

9 simulation algorithms random-generation computational-statistics metropolis-hastings

タグ付けされた質問 「metropolis-hastings」

タグ付けされた質問「metropolis-hastings」