最尤推定(MLE)のためのマルコフ連鎖モンテカルロ(MCMC)


10

以下にリンクされている1991年のGeyerの会議論文を読んでいます。その中で彼は、MLEパラメータ推定にMCMCを使用できる方法を回避しているようです

私はBFGSアルゴリズム、GA、およびMLEからパラメーターの推定値を抽出するために必要なグローバルミニマムを見つけるこれらの恐ろしい手の波状ラッキーディップ法のすべての種類をコーディングして以来、これは私を興奮させます。

それが私を興奮させる理由は、MCMCの固定点への収束を保証できる場合(たとえば、十分な基準が詳細なバランスを満たす場合)、MLEを最小化せずにパラメーターを取得できるためです。

したがって、結論は、これにより、上記および論文に課せられたグローバルな最小値、モジュロ制約を取得するための一般的な方法が提供されるということです。高次元のMCMC問題に対して適切にマッピングされているHMCなどのMCMCにはいくつかのアルゴリズムがあり、従来の勾配降下法よりもパフォーマンスが優れていると思います。

質問

  1. このホワイトペーパーは、MCMCを使用してMLEからパラメーター推定値を取得するための理論的な基礎を提供することを理解していますか?

  2. この論文で概説されているように、特定の状況でMCMCアルゴリズムを使用して、遺伝的アルゴリズムやBFGSなどのメソッドの必要性を回避してMLEからパラメーターを抽出できます。

論文

Geyer、CJ(1991)。マルコフ連鎖モンテカルロ最大尤度。計算科学と統計:Proc。23番目のシンプ。インターフェイス、156–163。

概要

マルコフ連鎖モンテカルロ(たとえば、メトロポリスアルゴリズムやギブスサンプラー)は、多くのタイプの統計的推論で役立つ複雑な確率過程のシミュレーションのための一般的なツールです。アルゴリズムの選択や分散推定など、マルコフ連鎖モンテカルロの基本を復習し、いくつかの新しい方法を紹介します。最尤推定のためのマルコフ連鎖モンテカルロの使用について説明し、そのパフォーマンスを最大疑似尤度推定と比較します。

注:セクション1から6は退屈なものであり、ここまでたどり着いたのであれば、おそらくすでに知っているでしょう。セクション7で、彼は興味深いものを手に入れましたが、彼は「モンテカルロ最大尤度」と呼んでいます。

その他のリソース

「Geyer」のcontrol + f


1
参考までに、ここのRパッケージglmm は、モンテカルロを使用してGLMMの可能性を概算しています。パッケージはガイヤーの学生によって書かれました。また`R」パッケージ『mcemGLMは』ここモンテカルロEMを使用してGLMMsためMLEを推定します。パッケージはGeyerと同じ学部の学生によって書かれました。
Greenparker 2016

これは非常に有望です。私はいつも、この統計の領域が下手だと感じていました。私は世界で最も明るい心のいくつかは、これらの問題を解決するために、様々な最小値(すなわちモンテカルロガス)まで歩いて架空のレミングをドロップされるように、後方思わ意味
アレクサンダー・マクファーレン

1
ブースとホーバートによるこの論文は、この分野で独創的であると考えられています。参照してくださいこれを。あなたの質問に直接関係はありませんが、同じ近所にいます。
Greenparker

1
好奇心のために、関数を最適化することが目標である場合、1991年のMCMC論文とは対照的に、グローバルな非凸確率的最適化の最新の方法を見てみませんか?
lacerbi

@lacerbiは、私が理論物理学の卒業生であり、フィールド全体が存在することさえ知らなかったためです(ありがとう!)、そして第二に、私の手元の問題が分布フィッティングを必要としたためです。私は本当によくMCMCを知っていると私は本当によくMLEを知っていると私はちょうど彼らがそれ故に私が発見した紙有用である可能性のクロスオーバーがある可能性があります感じていた
アレクサンダー・マクファーレン

回答:


6

マルチモーダルターゲット関数の場合、私が正しく理解していれば、MCMCに興奮しています。あなたの推論は、MCMCメソッドは、最も近いモードを撃って停止するのではなく、グローバルパラメータ空間を検索するというものです。

理論的には真実ですが、実際には、MCMCは通常、山登りの方法と多少似た動作をします。ローカルモードが見つかると、MCMCはしばしばそのモードを維持します。ヒルクライミングの方法とは異なり、モードを離れる可能性が高いため、理論的には十分に長く実行するとグローバルスペースを探索します。ただし、ほとんどのサンプラーでは、この確率は非常に小さいため、サンプラーがグローバルスペースを適切に探索することが保証されるほど長くチェーンを実行するのは不合理です。

もちろん、時々外れ値のステップをとることによってこれを修正しようとするサンプラーがあります(つまり、ローカルモードをエスケープできるかどうかを確認します)。しかし、これらのサンプラーは、マルチモーダルサーフェス(パーティクルスウォームなど)を探索するための標準的な最適化手法を使用して、最適化に関してはまったく競争力がないと思います。


極小値をエスケープすることに関して、これらのマルチモーダル空間をナビゲートするのに適度に有能であるように見える(Physicsからの)ハミルトニアンの原理に基づくMCMCルーチンのファミリー(たとえばこれ)があります。あなたのプロフィールを見て、これがあなたの研究分野であることを認めてください。実際、私の質問はあなたの社会的な「とりとめ」と同じような見方をしています。私はその方法に精通していませんが、専門家として、上記のMCMCの方法にはなんらかのメリットがあると思いますか?
Alexander McFarlane

@AlexanderMcFarlane:私は自分をMCMCの「専門家」と呼ぶかどうかはわかりませんが、専門家としての経験があります(r-nimble.org、しばらくの間取り組んできたプロジェクトを参照)。だから、塩の粒で私のアドバイスをしてください。とは言っても、MHランダムウォークなどの一般的なMCMCメソッドは、あなたが望むものには使いません。確率空間の限界を積極的に調査しようとするサンプラーには、より多くの幸運があるかもしれません(リンクのペイウォールなので、基準を満たすかどうかについてのコメントはありません)。
クリフAB

0

MCMCは通常、固定小数点に収束しません。収束は、マルコフ連鎖の定常分布です。描画異なっている、しかし、緩く、それらはから引かれる分布が一定になります。

MCMCメソッドには、一般に他の最適化メソッドと同様の問題があります。たとえば、極小値から脱出することの少ないチェーンを設計するのは簡単です。さまざまなモデルのこのような問題を解決するためのトリックに関する文献はすべてあります。

そうは言っても、2番目の質問への回答として、MCMCをパラメーター推定に使用できる簡単で汚い方法を次に示します。

  1. チェーンを実行し、パラメーターサンプルを生成します。
  2. パラメータの各サンプルでの可能性を取得します。
  3. MCMCサンプルの可能性をお気に入りのMLEと比較します。
  4. MCMCサンプルのいずれかが優れている場合、それは実際にはグローバルMLEではありませんでした。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.