MCMCの反復ごとに大きなデータセットをサブサンプリングできますか?


8

問題:ギブスサンプリングを実行して、大規模なデータセットの事後を推測したい。残念ながら、私のモデルはそれほど単純ではないため、サンプリングが遅すぎます。私は変分的または並列的なアプローチを検討しますが、その前に...

質問:すべてのステップで学習するインスタンスが少なくなるように、ギブスの反復ごとにデータセットからランダムに(置き換えて)サンプリングできるかどうか知りたいのですが。

私の直感は、サンプルを変更しても確率密度を変更しないため、ギブスサンプルはトリックに気付かないはずです。私は正しいですか?これを行った人々の言及はありますか?


1
余談ですが、別のアイデアは、大きなデータセットのランダムなサブサンプルに対して複数の分析を行うことです。このようにして、交差検証することもできます。
2014年

2
私はどんな権威でもあなたの正確な質問に答えることはできません(私の疑いはあなたがモンテカルロに付随する近似誤差を増加させているだけだと思います)、悲しい真実はこれがベイズMCMC分析のただの不幸な側面であるということです:それらは計算上です高価な。@conjecturesコメントは素晴らしいアイデアですが、問題の核心にはなりません。個人ごとにこれらのサンプルをすべて描画するにはコストがかかりすぎます。私の推奨は、重い作業(RのRcpp、PythonのCythonなど)用に独自のCコードを記述し、並列化(ブランチの依存関係がない場合)することです。

1
@conjecturesこれは、マイケル・ジョーダンの小さなブートストラップのバッグのように聞こえます。
ハラドニエミ2014年

1
潜在的な変数の増加を完全に回避するために、サンプラーを変更することをお勧めします。ギブスサンプラーはなくなりますが、メトロポリスヘイスティングスアルゴリズムは、尤度の通常の近似に基づいた提案で問題なく機能します。ベイジアンデータ分析の第2版のセクション16.4を参照してください。
jaradniemi

6
これは、正確に要約するのに十分なほどよく知らない活発な研究分野です。たとえば、jmlr.org / proceedings
Andrew M

回答:


1

X1N(μ1,σ12)X2N(μ2,σ22)θ=(μ1,μ2,σ12,σ22)

f(θ|X1,X2)f(X1|θ)f(X2|θ)f(θ)
δB(0.5)δ=0X1δ=1X2
f(θ,δ|X1,X2)f(X1,X2|δ,θ)f(θ)f(δ)
f(X1,X2|δ,θ)=f(X1|θ)δf(X2|θ)1δf(δ)=0.5δf(X1|θ)f(X2|θ)P(δ=1)=f(X1|θ)f(X1|θ)+f(X2|θ)δf(X1|θ)f(X2|θ)f(X1|θ)f(X2|θ)δδ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.