MCMC(マルコフチェーンモンテカルロ)手法に関する知識が少ないことから、サンプリングは前述の手法の重要な部分であると理解しています。最も一般的に使用されるサンプリング方法は、ハミルトニアンとメトロポリスです。
機械学習やディープラーニングを利用して、より効率的なMCMCサンプラーを構築する方法はありますか?
MCMC(マルコフチェーンモンテカルロ)手法に関する知識が少ないことから、サンプリングは前述の手法の重要な部分であると理解しています。最も一般的に使用されるサンプリング方法は、ハミルトニアンとメトロポリスです。
機械学習やディープラーニングを利用して、より効率的なMCMCサンプラーを構築する方法はありますか?
回答:
はい。他のどのような答えの状態とは異なり、このようnonparametricsと(深い)ニューラルネットワークとして「典型的な」機械学習の方法ができ、より良いMCMCサンプラーを作成するのに役立ちます。
MCMCの目標は、(正規化されていない)ターゲット分布からサンプルを取得することです。得られたサンプルは、を近似するために使用され、主に下の(高次元積分)、特に特性(モーメントなど)の期待値を計算できます。f f f
サンプリングには、通常、ハミルトニアンモンテカルロ(HMC)などの方法の場合、多数の評価と、おそらくその勾配の評価が必要です。評価にコストがかかる場合、または勾配が利用できない場合、サンプリングのガイドに役立ち、代わりに(MCMCのプロパティを保持する方法で)評価されるより安価な代理関数を構築することができます。f f
たとえば、独創的な論文(Rasmussen 2003)では、Gaussian Processes(ノンパラメトリック関数近似)を使用して近似を構築し、基づくHMCの受け入れ/拒否ステップのみでHMCを代理関数で実行することを提案しています。これにより、元の評価回数が減り、そうでなければ評価するには高すぎるPDFでMCMCを実行できます。f f
代理機能を使用してMCMCを高速化するためのサロゲートを使用するという考え方は、基本的に代理機能を構築し、それを異なるMCMCメソッドと効率的/適応的に結合するためのさまざまな方法を試行することで(および「正確さを維持する方法で」、 'MCMCサンプリングの)。あなたの質問に関連して、これらの非常に最近の2つの論文は、高度な機械学習技術-ランダムネットワーク(Zhang et al。2015)または適応学習された指数カーネル関数(Strathmann et al。2015)-を使用して代理関数を構築します。
HMCは、代理の恩恵を受けることができるMCMCの唯一の形式ではありません。例えば、Nishiara et al。(2014)アンサンブルサンプラーのマルチチェーン状態に多変量スチューデントの分布をフィッティングすることにより、ターゲット密度の近似値を構築し、これを使用して楕円スライスサンプリングの一般化された形式を実行します。
これらは単なる例です。一般に、MCMCサンプラーの効率を向上させる可能性のある情報を抽出するために、多くの異なるML手法(主に関数近似と密度推定の分野)を使用できます。それらの実際の有用性は、たとえば「1秒あたりの有効な独立サンプル」の数で測定されますが、が高価であるか、計算がやや難しいことを条件としています。また、これらの方法の多くでは、独自の知識または追加の知識を調整する必要があり、その適用性が制限されます。
参照:
ラスムッセン、カール・エドワード。「高価なベイズ積分のハイブリッドモンテカルロを高速化するガウス過程」。ベイジアン統計 7. 2003。
チャン、チェン、ババク・シャーババ、ホンカイ・チャオ。「ランダムベースのサロゲート関数を使用したハミルトニアンモンテカルロアクセラレーション。」arXivプレプリント arXiv:1506.05555(2015)。
ストラスマン、ヘイコ他 「効率的なカーネル指数族を持つグラディエントフリーハミルトニアンモンテカルロ」神経情報処理システムの進歩。2015年。
西原、ロバート、イアン・マレー、ライアン・P・アダムス。「一般化された楕円スライスサンプリングを使用した並列MCMC。」Journal of Machine Learning Research 15.1(2014):2087-2112。
方法ができた二つの概念を接続するには、多変量メトロポリスヘイスティングスアルゴリズムのことです。この場合、ターゲット分布(事後分布)と提案分布(通常は多変量正規分布またはt分布)があります。
よく知られている事実は、提案分布が事後分布から遠ざかるほど、サンプラーの効率が低下することです。そのため、ある種の機械学習法を使用して、単純な多変量正規/ t分布よりも真の事後分布によりよく一致する提案分布を構築することを想像できます。
ただし、これが効率の改善になるかどうかは明らかではありません。ディープラーニングを提案することで、ある種のニューラルネットワークアプローチの使用に興味があるかもしれないと思います。ほとんどの場合、これはバニラMCMCメソッド全体よりもはるかに計算コストが高くなります。同様に、NNメソッド(またはほとんどの機械学習メソッドでさえ)が、MCMCにとって重要な、観測された空間の外側に適切な密度を提供するのに良い仕事をする理由を知りません。そのため、機械学習モデルの構築に関連する計算コストを無視しても、これがサンプリング効率を改善する理由はわかりません。
機械学習は、監視ありまたは監視なしの設定での予測、分類、またはクラスタリングに関するものです。一方、MCMCは単純に、確率論的数値法を使用した複雑な統合(通常は閉じた形式ではない)の評価に関係しています。メトロポリスのサンプリングは、間違いなく最も一般的に使用されるアプローチではありません。実際、これは確率的要素を持たない唯一のMCMCメソッドです。したがって、この場合、MLはMCMCに何も通知しません。
重要度ベースのサンプリングには、確率的なコンポーネントが必要です。いくつかの基本的な仮定の下では、Metropolisよりも効率的です。MLメソッドを使用して、この確率的コンポーネントがいくつかの仮定と一致する場合、このコンポーネントを推定できます。例としては、複雑な高次元のガウス密度を推定するための多変量クラスタリングがあります。私はこの問題に対するノンパラメトリックなアプローチに精通していませんが、それは興味深い開発分野になる可能性があります。
それにもかかわらず、MLは、数値手法で後に使用される高次元の複雑な確率モデルを推定するプロセスの明確なステップとして、私にとって際立っています。この場合、MLがMCMCを実際にどのように改善するかはわかりません。
著者が制限付きボルツマンマシンを使用して確率分布をモデル化し、(できれば)効率的なモンテカルロ更新arXiv:1610.02746を提案する計算物理学の最近の研究がいくつかありました。ここでの考え方は、上記の@lacerbiによって与えられた参考文献と非常によく似ています。
別の試み1702.08586では、著者は、有名なクラスターモンテカルロアップデートを実行(および発見)できるボルツマンマシンを明示的に構築しました。