MCMCのパフォーマンスベンチマーク

14

テスト密度のスイートでいくつかの異なるアルゴリズムのパフォーマンスを比較するMCMCメソッドの大規模な研究がありましたか？Rios and Sahinidisの論文（2013）に相当するものを考えています。これは、いくつかのクラスのテスト関数での多数の派生物を含まないブラックボックスオプティマイザーの徹底的な比較です。

MCMCの場合、パフォーマンスは、たとえば、密度評価ごとの有効サンプル数（ESS）、またはその他の適切なメトリックで推定できます。

いくつかのコメント：

パフォーマンスはターゲットpdfの詳細に強く依存することを理解していますが、最適化には同様の（場合によっては同一ではない）引数が保持されますが、ベンチマークの最適化を扱う多数のベンチマーク関数、スイート、競合、論文などがありますアルゴリズム。
また、MCMCが最適化と異なる点は、ユーザーからの注意と調整が比較的はるかに必要なことです。それでも、ほとんどまたはまったくチューニングを必要としないMCMCメソッドがいくつかあります。バーンインフェーズ、サンプリング中に適応するメソッド、または相互作用する複数のチェーンを進化させて使用するマルチステート（アンサンブルとも呼ばれる）メソッド（Emceeなど）サンプリングをガイドする他のチェーンからの情報。
特に、標準メソッドとマルチステート（別名アンサンブル）メソッドの比較に興味があります。マルチステートの定義については、MacKayの本のセクション30.6を参照してください。

マルチステートメソッドでは、複数のパラメーターベクトルが維持されます。これらは、メトロポリスやギブスなどの動きの下で個別に進化します。ベクトル間の相互作用もあります。 $\textbf{x}$

この質問はここから始まりました。

更新

マルチステート別名アンサンブルメソッドの興味深い例については、GelmanのブログのBob Carpenterによるこのブログ投稿と、このCV投稿に関する私のコメントを参照してください。

— ラセルビ
ソース

5

いくつかのオンライン検索の後、私は、最適化の文献で見つけることができるものに類似した、確立されたMCMCメソッドの包括的なベンチマークが存在しないという印象を受けました。（ここで間違えてうれしいです。）

適用されたドメイン内の特定の問題に関するいくつかのMCMCメソッドの比較を見つけるのは簡単です。この情報をプールできればこれで問題ありませんが、そのようなベンチマークの品質はしばしば不十分です（たとえば、報告されたメトリックの不足や設計の選択の悪さなど）。

以下に、貴重な貢献だと思うものを見つけたときに投稿します。

西原、マレー、アダムズ、並列MCMC、一般化楕円スライスサンプリング、JMLR（2014）。著者は、新規のマルチステートメソッドGESSを提案し、7つのテスト関数で6つの他のシングルステートおよびマルチステートメソッドとの比較を実行します。彼らはパフォーマンスを1秒あたりおよび関数ごとのESS（有効サンプルサイズ）として評価します。
SamplerCompareは、MCMCアルゴリズムのベンチマークを目的とするRパッケージです。元の質問でまさに私が尋ねていたものです。残念ながら、このパッケージにはいくつかのテスト関数しか含まれていません。添付の論文では、実際のベンチマークは報告されていません（ほんの一例です）。そして、フォローアップはなかったようです。

トンプソン、マドレーヌB。「サンプラー比較入門」。Journal of Statistical Software 43.12（2011）：1-10（リンク）。

マルチステート別名アンサンブルメソッドの興味深い例については、GelmanのブログのBob Carpenterによるこのブログ投稿と、このCV投稿に関する私のコメントを参照してください。

— ラセルビ
ソース

2番目のリンクは機能していません。機能するリンクに変更できますか？

— ティム

この2017年12月の論文：Ryan Turner＆Brady Nealをご覧ください。サンプラーはどれだけうまく機能していますか？MCMCアルゴリズムの優れたベンチマークを思い付くというまさにこの問題に対するきちんとした解決策を提供するようです。

— カール

2

MCMCメソッドについて包括的なベンチマークが確立されていないというあなたの評価に同意します。これは、すべてのMCMCサンプラーには長所と短所があり、非常に問題固有であるためです。

典型的なベイジアンモデリング設定では、データが異なる場合、同じサンプラーをさまざまなミキシングレートで実行できます。将来、さまざまなMCMCサンプラーの包括的なベンチマーク調査が行われる場合、結果が示された例以外に適用されるとは思わないでしょう。

サンプリング品質を評価するためのESSの使用に関しては、ESSがサンプルから推定される量に依存することに言及する価値があります。サンプルの平均を求める場合、得られるESSは、25番目の分位数を推定する場合とは異なります。とはいえ、関心のある量が固定されている場合、ESSはサンプラーを比較する合理的な方法です。たぶん、より良いアイデアは単位時間あたりのESSです。

ESSの欠点の1つは、多変量推定問題の場合、ESSは各コンポーネントの有効なサンプルサイズを個別に返し、推定プロセスのすべての相互相関を無視することです。で、この最近紙、多変量ESSが提案されており、および実装Rパッケージmcmcse機能を経由してmultiESS。このメソッドがcodaパッケージのESSとどのように比較されるかは不明ですが、最初は単変量のESSメソッドよりも合理的です。

— グリーンパーカー
ソース

2

（+1）答えてくれてありがとう。私はあなたのポイントのいくつかに同意しますが、そのようなベンチマークからいくらかの情報が得られると私はまだ思います。そのようなベンチマークの結果をどのように使用して将来の選択肢を導くかは、彼ら次第ですが、いくつかの証拠は証拠なしよりも優れています。ESSの良い点。マルチステートとは、単に多変量ではなく、マルチステート（または必要に応じてマルチチェーン）を意味します-私の元の質問でMacKayの本の引用を参照してください。

— -lacerbi

2

一般に、一部のサンプラーはマルチモーダル分布（MH、Gibbs）でパフォーマンスが低下することが知られています。一方、高次元の問題ではハミルトニアンMCがうまく機能し、マルチモーダル分布ではシミュレートされた焼戻しなどが適しています。行うにはいずれかの結果は、一般的に解釈するためにベンチマークを、一つは（サブ指数、凹などをログ）ターゲット分布の異なる広範なクラスを定義する必要があります。

— グリーンパーカー

1

ええ、はい、それがアルゴリズムのクラスのベンチマークを構築する全体のポイントです。グローバル最適化の例については、これを参照してください。明らかにMCMCのベンチマークは、最適化のために既存のものを借用することはできません。あなたが言及したように、MCMCの問題に特有で一般的で関心のあるターゲット密度の機能に焦点を合わせる必要があります。

— -lacerbi