ABCとMCMCのアプリケーションの違いは何ですか?


15

私の理解では、近似ベイズ計算(ABC)とマルコフ連鎖モンテカルロ(MCMC)の目的は非常に似ています。以下では、これらの方法についての私の理解と、実際のデータに対するそれらのアプリケーションの違いをどのように認識するかについて説明します。

近似ベイズ計算

ABCは、事前にパラメータをサンプリングし、θ数値シミュレーションを通じて統計xiを計算します。これは、観測されたと比較されxobsます。拒否アルゴリズムに基づいて、xiは保持または拒否されます。保持されたxiのリストが事後分布を作成しました。

マルコフ連鎖モンテカルロ

MCMCは、パラメーター事前分布のサンプリングで構成されますθ。これは、最初のサンプルかかるθ1計算、P(xobs|θ1)P(θ1)新しい値に(いくつかの規則に従って)ジャンプ次いで及びθ2のためのP(xobs|θ2)P(θ2)を再度計算されます。比率P(xobs|θ2)P(θ2)P(xobs|θ1)P(θ1)が計算され、いくつかのしきい値に応じて、次のジャンプが最初または2番目の位置から発生します。値の探索は次々と行われ、最後までに、保持された値の分布は事後分布(理由はまだわかりません)。θθP(θ|x)

私の説明は、これらの各用語の下に存在するさまざまな方法を表すのを逃していることに気付きます(特にMCMCの場合)。

ABC対MCMC(賛否両論)

ABCには、を解析的に解く必要がないという利点があります。そのため、ABCはMCMCが作成できない複雑なモデルに便利です。P(x|θ)P(θ)

MCMCでは、統計的検定(尤度比検定、G検定、...)を行うことができますが、ABCではこれが実現可能ではないと思います。

私は今のところ正しいですか?

質問

  • ABCとMCMCのアプリケーションの違いは何ですか?どのようにして1つまたは別の方法を使用することを決定しますか?

1
「MCMCは、パラメータθの事前分布のサンプリングで構成されます。」確かにこれを行うことができますが、ほとんどの場合それは必要ではなく、望ましくさえありません。多くのMCMCアプリケーションでは、θ1を中心とする候補分布(たとえば、標準偏差が小さいガウス分布)からθ2をサンプリングし、上記のように受け入れ/拒否の比率を計算します。これは、前のものからサンプリングするABCとは対照的です(そして、これは一般にABCに前の情報を組み込む唯一の方法です)。
z_dood

回答:


12

ビョルンの答えに加えていくつかの追加コメント:

  1. ABCは、計算目的ではなく、ベイジアン推論の性質の説明としてRubin(1984)によって最初に導入されました。この論文では、サンプリング分布と事前分布が相互作用して事後分布を生成する方法を説明しました。

  2. ただし、ABCは主に計算上の理由で悪用されます。集団遺伝学者は、観察されたサンプルの可能性が手に負えないツリーベースのモデルの方法を思いつきました。このような設定で利用可能なMCMC(データ拡張)スキームは非常に非効率的であり、単一次元のパラメーターでも重要度サンプリングが行われていました... ABCは、中核となるMCMCやPMCなどのモンテカルロ法に代わるものです。これらはすべての実用的な目的に利用できるわけではありません。それらが利用可能な場合、ABCは、より高速に実行される場合にそれらを調整するために使用できるプロキシとして表示されます。

  3. より現代的な観点では、私は個人的にABCを計算手法ではなく近似推論方法と考えています。近似モデルを構築することにより、必ずしも正確なモデルに依存することなく、関心のあるパラメーターに関する推論を引き出すことができます。この設定ではある程度の検証が必要ですが、モデルの平均化またはノンパラメトリックを実行するよりも有効性は低くありません。実際、ABCは特殊なタイプのノンパラメトリックベイジアン統計と見なすことができます。

  4. また、元のモデルとデータをノイズの多いモデルに置き換えた場合、(ノイズの多い)ABCは完全に明確に定義されたベイジアンアプローチであることが示されます。そのため、考えられるすべてのベイジアン推論が可能になります。テストを含む。ABCと仮説検定に関する議論への私たちの意見は、ABCの根底にある近似モデルは、データを与えられた仮説の関連性を評価するための設備不十分になる可能性がありますが、必ずしもそうではありません。遺伝学はモデルの選択に関係しています。

  5. さらに最近の観点では、ABC は、統計モデルのパラメーターが事前に決定された統計のモーメントに関連する間接推論のベイジアンバージョンとして見ることができます。これらのパラメーターがこれらのパラメーターを識別するのに十分な場合(または専門用語の意味で十分な場合)、ABC は観測数でパラメーターの真の値に収束することが示されます。


2
私はこの答えを確認しましたが、最初に@Björnの答え(+1)を読み、次に西安の答えを読むことをお勧めします。
Remi.b

12

P(x|θ)θシミュレートされたデータは、ほとんどの場合(おおよそ)観測データと一致します(提案された値は、たとえば、前からランダムに抽出されます)。サンプルサイズが大きすぎない単一の二項確率変数などの単純な場合は、完全一致が必要になることもありますが、そのような場合、これらの事後サンプルではできないことはまったくありません。標準MCMCサンプル。連続的な(多変量の離散結果であっても)複雑な状況や、完全一致を必要とする潜在的に多変量の結果は、もはや実現不可能です。

実際には、MCBCバージョンのABCがあります。これは、事後条件に非常に似ていない事前条件がある場合(事前条件が非常に情報価値がないため)、事前条件からのサンプリングによるサンプリングが非常に非効率的であるという問題に対処します。観測されたデータとシミュレートされたデータの間で密接な一致を取得します。

P(x|θ)P(x|θ)P(x|θ)分析的に利用できません。もちろん、そのような場合には、特定の問題に対してより効率的/成功する可能性のある他のオプション(INLA、尤度の2次近似など)がいくつかあります。ある意味では、ABCの事後サンプルでできることの制限は、実際のデータとシミュレートされたデータの近似一致のみを必要とすることから生じます(完全に一致する必要がある場合は、まったく問題はありません)。いくつかの優れた入門論文がありますたとえば、マリンらによるこの論文です。(2012)。少なくとも1人の共著者(@ Xi'an)がここで積極的に貢献しており、彼の考えもここで楽しみにしています。テストトピックについて彼はもっと多くのことを言うことができると思います。


今すぐリンクを修正できたことを願っています(今ではうまくいきます)。
ビョルン

1
(+1)非常に良い点!
西安

1
「P(x |θ)が分析的に利用可能な場合、標準のMCMCを使用することがほぼ常に好ましいと思われます。」ほぼではありますが、常にではありません。多くのパラメーターと組み合わされた非常に大きなサンプルサイズ(10 ^ 9)があるとします。パラメータの各セットの尤度を再計算するのは非常に高価になります。ABCには、これを高速化するために使用できる多くのトリックがあります。MCMCでは、それほど多くはありません。
-z_dood

2
@z_dood:たとえば、異なるコンピューターに保存する必要がある場合など、尤度を実際に計算するには観測値が多すぎる場合、尤度関数が分析的に利用できないことが議論になります。
西安
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.