MaxEnt、ML、Bayes、およびその他の種類の統計的推論方法の比較


21

私は統計学者ではありません(数理統計学のコースを受講しましたが、それ以上のコースはありません)。最近、情報理論と統計力学を学んでいる間に、「不確実性尺度」/「エントロピー」と呼ばれるものに出会いました。私はKhinchinの派生物を不確実性の尺度として読み、それは私にとって理にかなっています。別の意味があるのは、サンプルの1つ以上の関数の算術平均を知っているときに統計を取得するMaxEntのJaynesの説明です(もちろん、不確実性の尺度としてを受け入れたと仮定)。 plnp

そこで、ネット上で検索して、他の統計的推論方法との関係を見つけましたが、神は私を混乱させました。例えば、この論文は、私がそれを正しかったと仮定して、問題の適切な再定式化の下でML推定量を得るだけであることを示唆しています。MacKeyは、彼の本の中で、MaxEntは奇妙なものを与えることができると言います。ベイジアン推論の最初の推定にも使用すべきではありません。など。私は良い比較を見つけるのに苦労しています。

私の質問は、MaxEntの弱点と強点の説明および/または適切な参照を、他の方法との定量的比較を伴う統計的推論方法として提供できますか(たとえば、おもちゃモデルに適用する場合)?

回答:


19

MaxEntおよびBayesian推論メソッドは、モデリング手順に情報を組み込むさまざまな方法に対応しています。両方とも公理的根拠に置くことができます(John Skillingの「Axioms of Maximum Entropy」およびCoxの「Algebra of Probable Inference」)。

事前知識が仮説空間上の測定可能な実数値関数の形式、いわゆる「事前」である場合、ベイズのアプローチは簡単に適用できます。MaxEntは、情報が仮説空間に対する厳しい制約のセットとして提供される場合、簡単です。実際には、知識は「事前」形式でも「制約」形式でもないため、メソッドの成功は、対応する形式で知識を表現する能力に依存します。

おもちゃの問題の場合、ベイジアンモデルの平均化は、事前分布が仮説の真の分布と一致するときに、最小の平均ログ損失(多くのモデル描画で平均化)を提供します。MaxEntアプローチでは、制約が満たされた場合に最悪のログ損失が最小になります(可能な限りすべての事前損失を引き継ぐ)

「MaxEnt」メソッドの父と考えられているETJaynesも、ベイジアンメソッドに依存していました。上のページ1412彼の著書、彼はベイジアンアプローチはMAXENTのアプローチがより自然である例が続い良い解決策をもたらした例を示します。

最尤法は、基本的に、モデルを事前に決定されたモデル空間内に配置し、そのようなモデルに制限されたすべてのモデルピッキングメソッドのデータに対して最高の感度を持たせるという意味で「可能な限りハード」にフィットしようとしますスペース。MaxEntとBayesianがフレームワークであるのに対して、MLは具体的なモデルの適合方法であり、特定の設計上の選択については、MLはBayesianまたはMaxEntアプローチから派生した方法になる可能性があります。たとえば、等式制約のあるMaxEntは、特定の指数族の最尤フィッティングに相当します。同様に、ベイジアン推論への近似は、正規化された最尤解を導きます。結論をデータに対して最大限に敏感にするために事前を選択した場合、ベイジアン推論の結果は最尤フィッティングに対応します。例えば、pベルヌーイトライアルを超える、このような従来のでしょう極限分布ベータ(0,0)

現実の機械学習の成功は、多くの場合、さまざまな哲学の組み合わせです。たとえば、「ランダムフィールド」はMaxEntの原理から派生したものです。アイデアの最も一般的な実装である正規化されたCRFでは、パラメーターに「優先」を追加します。その結果、このメソッドは実際にはMaxEntでもベイジアンでもありませんが、両方の考え方に影響されます。

ここここでベイジアンアプローチとMaxEntアプローチの哲学的基礎に関するリンクを集めまし

用語に関する注意:ある時点でベイズ規則を使用する場合単にメソッドをベイジアン呼ぶことがあります。同様に、「MaxEnt」は、高エントロピーのソリューションを支持する方法で使用されることがあります。これは、上記の「MaxEnt推論」または「ベイジアン推論」とは異なります


1
ありがとう。「科学の論理」がこのことについても語っているとは思わなかった。間違いなくその本を読むつもりだ。
フランチェスコ

19

最大エントロピー法の面白い批評については、sci.stat.mathとsci.stat.consultの古いニュースグループの投稿、特にRadford Nealの投稿を読むことをお勧めします。

私はmaxentと他のメソッドの比較を知りません:問題の一部はmaxentが実際にはフレームワークではなく、あいまいなディレクティブ(「未知に直面したとき、単にエントロピーを最大化する」)であるようです異なる人々によって異なる方法で解釈されます。


4
(+1)2002年のスレッドは、意見交換の地獄です。
whuber

1
エドウィン・ジェインズが確率論で与えた最大値の「ウォリス導出」は、科学の論理がエントロピーを最大化するための「実験的」理論的根拠を与えることに注意してください。離散分布では、無差別の原理(PID)から始めて、基本的に確率で棄却サンプリングを実行し、制約を使用してランダムな均一サンプルを受け入れまたは棄却します。結果の確率は、(離散)最大分布に任意に近くなります。
確率論的

3

過去において、MaxEntとBayesは異なるタイプまたは形式の情報を扱ってきました。しかし、ベイズは「ハード」制約を使用している可能性もあります。

いずれの場合でも、ベイズ規則(製品規則ではない)は最大相対エントロピー(MrE)から取得でき、曖昧な方法ではないため、問題ではなくなりました。

それは新しい世界です...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.