MCMC手法のサンプリングプロセスを「改善」するために、機械学習アルゴリズムまたは深層学習アルゴリズムを利用できますか?


21

MCMC(マルコフチェーンモンテカルロ)手法に関する知識が少ないことから、サンプリングは前述の手法の重要な部分であると理解しています。最も一般的に使用されるサンプリング方法は、ハミルトニアンとメトロポリスです。

機械学習やディープラーニングを利用して、より効率的なMCMCサンプラーを構築する方法はありますか?


5
どのような「改善」を念頭に置いているのか、機械学習の役割をどのように見ているのかを指定してください。
ティム

2
通常、MCMCには通常、閉じたフォームのない式から値を推定することが含まれますが、これは単純に複雑すぎて分析ソリューションを見つけることができません。多変量クラスタリング(または同様のアプローチ)を使用してより単純な多変量密度を推定できる可能性がありますが、MCMCを使用する代わりにそれを使用することもできます。
AdamO

1
@AdamO、それを答えに変えてみませんか?ここに着くのと同じくらい良いかもしれません。
GUNG -復活モニカ

@Timまあ、私が読んだことから、MCMCは推論量を計算するために分布からサンプルを引き出します。MHアルゴリズムは「ロケーション」をランダムに選択し、受け入れ可能かどうかをアサートします。私が疑問に思っていたのは、MLの代替技術があるかどうかです。あいまいに聞こえるかもしれませんが、そのことをおizeびしますが、MCMCに興味をそそられ、独学で理論と実際の応用をつかもうとしています。
ジェスパー

回答:


27

はい。他のどのような答えの状態とは異なり、このようnonparametricsと(深い)ニューラルネットワークとして「典型的な」機械学習の方法ができ、より良いMCMCサンプラーを作成するのに役立ちます。

MCMCの目標は、(正規化されていない)ターゲット分布からサンプルを取得することです。得られたサンプルは、を近似するために使用され、主に下の(高次元積分)、特に特性(モーメントなど)の期待値を計算できます。f f ffバツfff

サンプリングには、通常、ハミルトニアンモンテカルロ(HMC)などの方法の場合、多数の評価と、おそらくその勾配の評価が必要です。評価にコストがかかる場合、または勾配が利用できない場合、サンプリングのガイドに役立ち、代わりに(MCMCのプロパティを保持する方法で)評価されるより安価な代理関数を構築することができます。f ffff

たとえば、独創的な論文(Rasmussen 2003)では、Gaussian Processes(ノンパラメトリック関数近似)を使用して近似を構築し、基づくHMCの受け入れ/拒否ステップのみでHMCを代理関数で実行することを提案しています。これにより、元の評価回数が減り、そうでなければ評価するには高すぎるPDFでMCMCを実行できます。f fログfff

代理機能を使用してMCMCを高速化するためのサロゲートを使用するという考え方は、基本的に代理機能を構築し、それを異なるMCMCメソッドと効率的/適応的に結合するためのさまざまな方法を試行することで(および「正確さを維持する方法で」、 'MCMCサンプリングの)。あなたの質問に関連して、これらの非常に最近の2つの論文は、高度な機械学習技術-ランダムネットワーク(Zhang et al。2015)または適応学習された指数カーネル関数(Strathmann et al。2015)-を使用して代理関数を構築します。

HMCは、代理の恩恵を受けることができるMCMCの唯一の形式ではありません。例えば、Nishiara et al。(2014)アンサンブルサンプラーのマルチチェーン状態に多変量スチューデントの分布をフィッティングすることにより、ターゲット密度の近似値を構築し、これを使用して楕円スライスサンプリングの一般化された形式を実行しますt

これらは単なる例です。一般に、MCMCサンプラーの効率を向上させる可能性のある情報を抽出するために、多くの異なるML手法(主に関数近似と密度推定の分野)を使用できます。それらの実際の有用性は、たとえば「1秒あたりの有効な独立サンプル」の数で測定されますが、が高価であるか、計算がやや​​難しいことを条件としています。また、これらの方法の多くでは、独自の知識または追加の知識を調整する必要があり、その適用性が制限されます。f

参照:

  1. ラスムッセン、カール・エドワード。「高価なベイズ積分のハイブリッドモンテカルロを高速化するガウス過程」。ベイジアン統計 7. 2003。

  2. チャン、チェン、ババク・シャーババ、ホンカイ・チャオ。「ランダムベースのサロゲート関数を使用したハミルトニアンモンテカルロアクセラレーション。」arXivプレプリント arXiv:1506.05555(2015)。

  3. ストラスマン、ヘイコ他 「効率的なカーネル指数族を持つグラディエントフリーハミルトニアンモンテカルロ」神経情報処理システムの進歩。2015年。

  4. 西原、ロバート、イアン・マレー、ライアン・P・アダムス。「一般化された楕円スライスサンプリングを使用した並列MCMC。」Journal of Machine Learning Research 15.1(2014):2087-2112。


2
リストしたメソッドが実際に「機械学習メソッド」のカテゴリにあるかどうかはわかりませんが、標準のMCMCメソッドにすぎません(ただし、これは最も曖昧な行です)。間違いなくML / DLメソッドのように見える唯一のもの 3 でした。タイトルから「ニューラルネットワーク」を削除しました(そして、標準のMLメソッドの使用は非常に遅いと認めているようです)。
クリフAB

2
t

1
@lacerbiどうもありがとうございます。あなたの参考文献をさらなる研究の基盤として使用できることを嬉しく思います。
ジェスパー

6

方法ができた二つの概念を接続するには、多変量メトロポリスヘイスティングスアルゴリズムのことです。この場合、ターゲット分布(事後分布)と提案分布(通常は多変量正規分布またはt分布)があります。

よく知られている事実は、提案分布が事後分布から遠ざかるほど、サンプラーの効率が低下することです。そのため、ある種の機械学習法を使用して、単純な多変量正規/ t分布よりも真の事後分布によりよく一致する提案分布を構築することを想像できます。

ただし、これが効率の改善になるかどうかは明らかではありません。ディープラーニングを提案することで、ある種のニューラルネットワークアプローチの使用に興味があるかもしれないと思います。ほとんどの場合、これはバニラMCMCメソッド全体よりもはるかに計算コストが高くなります。同様に、NNメソッド(またはほとんどの機械学習メソッドでさえ)が、MCMCにとって重要な、観測された空間の外側に適切な密度を提供するのに良い仕事をする理由を知りません。そのため、機械学習モデルの構築に関連する計算コストを無視しても、これがサンプリング効率を改善する理由はわかりません。


Cliff ABあなたと@AdamOは、別の本に何時間も費やすよりも、MCMCとMLの概念を明確にしてくれたと思います。皆さんの努力に感謝します。あなたが私がさらに掘り下げていくことができるいくつかの領域に言及してくれてうれしいです。
ジェスパー

@Sitherionどの本を参照していますか?
AdamO

@AdamO現在、私はリチャード・サットンによる強化学習と、MCMCの章を含むケビン・マーフィーによる機械学習:確率的展望を読んでいます。また、さまざまなMLおよび計算統計ジャーナルからの出版物。
ジェスパー

3

機械学習は、監視ありまたは監視なしの設定での予測、分類、またはクラスタリングに関するものです。一方、MCMCは単純に、確率論的数値法を使用した複雑な統合(通常は閉じた形式ではない)の評価に関係しています。メトロポリスのサンプリングは、間違いなく最も一般的に使用されるアプローチではありませ。実際、これは確率的要素を持たない唯一のMCMCメソッドです。したがって、この場合、MLはMCMCに何も通知しません。

重要度ベースのサンプリングに、確率的なコンポーネント必要です。いくつかの基本的な仮定の下では、Metropolisよりも効率的です。MLメソッドを使用して、この確率的コンポーネントがいくつかの仮定と一致する場合、このコンポーネントを推定できます。例としては、複雑な高次元のガウス密度を推定するための多変量クラスタリングがあります。私はこの問題に対するノンパラメトリックなアプローチに精通していませんが、それは興味深い開発分野になる可能性があります。

それにもかかわらず、MLは、数値手法で後に使用される高次元の複雑な確率モデルを推定するプロセスの明確なステップとして、私にとって際立っています。この場合、MLがMCMCを実際にどのように改善するかはわかりません。


@AdamOに感謝します。少なくとも今では、この分野についての理解が深まりました。
ジェスパー

1
この答えは不完全であり、おそらく間違っていると思います(OPの実際の質問の解釈に依存しますが、これは完全には明らかではありません)。例えばnonparametrics及びニューラルネットワークのような典型的なML方法ができ且つれる MCMCサンプラーを改善するために使用されます。実際、それは研究の活発な分野です。私の答えとその中の参照を参照してください。
lacerbi

1
p

@AdamOに感謝します。それでも、正直に言うと、私はあなたの説明、またはそれがあなたの答えを正しくする方法を理解していません。たとえば、Metropolisには「確率的要素がない」と言うときの意味がわかりません。また、あなたはMLがサンプリングに役立たないことを述べていますが、これは単純に真実ではありません(高次元積分の推定としてのサンプリングの狭い定義でも)、私の答えが示しています。
-lacerbi

3
@AdamO:ガウス過程、カーネル法、ランダム基底ネットワーク。一般に、あらゆる形式の関数近似または密度推定が機能します。これらがMLメソッドではない場合、何 ... かわかりません(OPがML メソッドまたは DLメソッドを要求したことに注意してください)。また、上記で尋ねたように、Metropolisには確率的要素がないことを書いたときにあなたが意味したことを説明してください。ありがとう!
-lacerbi

0

著者が制限付きボルツマンマシンを使用して確率分布をモデル化し、(できれば)効率的なモンテカルロ更新arXiv:1610.02746を提案する計算物理学の最近の研究がいくつかありました。ここでの考え方は、上記の@lacerbiによって与えられた参考文献と非常によく似ています。

別の試み1702.08586では、著者は、有名なクラスターモンテカルロアップデートを実行(および発見)できるボルツマンマシンを明示的に構築しました

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.