尤度比とベイズ係数


61

特定の現象に対する/に対する客観的な証拠を表すための尤度比の使用に関しては、むしろ伝道的です。しかし、最近、ベイズ因子がベイジアン手法のコンテキストで同様の機能を果たすことを学びました(つまり、主観的な事前確率を客観的なベイズ因子と組み合わせて、客観的に更新された主観的な信念状態を生成します)。私は現在、尤度比とベイズ因子の計算上の違いと哲学的な違いを理解しようとしています。

計算レベルでは、尤度比は通常、各モデルのそれぞれのパラメーター化の最大尤度を表す尤度を使用して計算されますが(相互検証によって推定されるか、AICを使用してモデルの複雑さに応じてペナルティが課される)、明らかにベイズ因子は(MLEだけでなく)パラメーター空間全体で統合された各モデルの尤度を表す尤度。この統合は、通常どのように実際に達成されますか パラメーター空間から数千(数百万)のランダムサンプルのそれぞれで尤度を計算しようとするだけですか、それともパラメーター空間全体で尤度を統合するための分析方法がありますか?さらに、ベイズ係数を計算するとき、

また、尤度比とベイズ因子の哲学的違いは何ですか(nb尤度比とベイズ法一般の哲学的違いについては質問していませんが、具体的に客観的証拠の表現としてのベイズ因子です)。尤度比と比較して、ベイズ因子の意味をどのように特徴付けることができますか?



1
チェン、シャオとイブラヒム(2000)は、ベイズ因子のモンテカルロ計算に専用されています。
西安

回答:


36

どうやら、ベイズ因子は、パラメータ空間全体(MLEだけでなく)で統合された各モデルの尤度を表す尤度を何らかの形で使用しています。この統合は、通常どのように実際に達成されますか?パラメーター空間から数千(数百万)のランダムサンプルのそれぞれで尤度を計算しようとするだけですか、それともパラメーター空間全体で尤度を統合するための分析方法がありますか?

まず、データとモデルに対してなどの用語を考慮する状況は、尤度モデルと見なされます。これは多くの場合、統計分析、フリークエンシーまたはベイジアンのパンとバターであ​​り、これはあなたの分析が良い適合または悪い適合のいずれかを示唆することを意図している部分です。したがって、ベイズ因子は尤度比と根本的に異なることを何もしていません。P(D|M)DM

ベイズ因子を正しい設定にすることが重要です。たとえば、2つのモデルがあり、確率からオッズに変換すると、ベイズ因子は以前の信念に対する演算子のように機能します。

PosteriorOdds=BayesFactorPriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)

本当の違いは、尤度比の計算が安価であり、一般に概念的には指定が簡単なことです。MLEでの尤度は、それぞれベイズ因子の分子と分母の点推定にすぎません。ほとんどの頻繁な構文のように、これは、取得が困難な不自然な事前条件を持つベイズ分析の特別なケースと見なすことができます。しかし、ほとんどの場合、分析的に扱いやすく、計算が簡単であるために発生しました(近似ベイジアン計算アプローチが登場する前の時代)。

計算のポイントまで、はい:実質的に関心のあるほとんどすべてのケースで、大規模なモンテカルロ手順を使用して、ベイジアン設定のさまざまな尤度積分を評価します。特定の分布を仮定した場合に動作するGHKなどの特殊なシミュレーターがあり、これらの仮定を行うと、完全に分析的なベイズ因子が存在する分析的に扱いやすい問題を見つけることができます。

しかし、誰もこれらを使用しません。理由はありません。最適化されたMetropolis / Gibbsサンプラーおよび他のMCMCメソッドを使用すると、これらの問題に完全にデータ駆動型でアプローチし、積分を数値的に計算することは完全に扱いやすくなります。実際、多くの場合、これを階層的に実行し、データ収集メカニズム、無視できない実験計画などに関連するメタ優先度の結果をさらに統合します。

詳細については、Bayesian Data Analysisの本をお勧めします。しかし、著者のアンドリュー・ゲルマンは、ベイズ因子をあまり気にしていないようです。余談ですが、私はゲルマンに同意します。ベイジアンに行く場合は、後部全体を活用します。モデル選択は弱く、ほとんど役に立たない推論の形式であるため、ベイズ法でモデル選択を行うことはハンディキャップのようなものです。可能であれば、モデルの選択肢に対する分布を知りたいのですが、必要がない場合に「モデルAはモデルBよりも優れている」という種類のステートメントに量子化することに関心がある人はいますか。

さらに、ベイズ係数を計算するとき、尤度比の場合と同様に、複雑さの補正を適用します(自動的に尤度の相互検証推定を介して、または分析的にAICを介して)?

これは、ベイジアン手法の優れた点の1つです。ベイズ因子は、技術的な意味でモデルの複雑さを自動的に考慮します。2つのモデルとして、それぞれモデルの複雑さをと、とサンプルサイズの単純なシナリオを設定できます。。M1M2d1d2d1<d2N

次いで、場合とベイズ因子である分子に、という仮定の下で真の一つであるようにすることを証明することができ、に近づくモデルの複雑さの違いに依存するレートでであり、ベイズ因子はより単純なモデルを優先します。具体的には、上記のすべての仮定の下で、であることを示すことができますB1,2M1M1NB1,2

B1,2=O(N12(d2d1))

私はこの導出と、シルビア・フリューワート・シュナッター著の「有限混合とマルコフ交換モデル」からの議論に精通しているが、それの根底にある認識論をより深く掘り下げるより直接的な統計的記述がある可能性が高い。

私はここでそれらを与えるほど詳細を知りませんが、これとAICの派生の間にはかなり深い理論的つながりがあると思います。カバーとトーマスによる情報理論の本は、少なくともこれをほのめかしました。

また、尤度比とベイズ因子の哲学的違いは何ですか(nb尤度比とベイズ法一般の哲学的違いについては質問していませんが、具体的に客観的証拠の表現としてのベイズ因子です)。尤度比と比較して、ベイズ因子の意味をどのように特徴付けることができますか?

「解釈」のWikipediaの記事のセクションでは、この(証拠スケールのジェフリーズ強さを示す特にチャートを)議論の良い仕事をしていません。

いつものように、ベイジアン手法と頻度論的手法の基本的な違いを超えた哲学的なものはあまりありません(既におなじみのようです)。

主なことは、オランダの本の意味では尤度比が一貫していないことです。尤度比からのモデル選択推論により、負けた賭けを受け入れるシナリオを作成できます。ベイジアン法は一貫性がありますが、非常に貧弱な可能性があり、主観的に選択する必要がある事前分布で動作します。トレードオフ..トレードオフ...

FWIW、私はこの種の非常にパラメータ化されたモデル選択はあまり良い推論ではないと思います。私はベイジアン手法を好み、それらをより階層的に整理することを好みます。計算が実行可能である場合は、完全な事後分布を中心に推論を行いたいです。ベイズ因子にはきちんとした数学的特性があると思いますが、ベイジアン自身としては、それらに感銘を受けていません。ベイジアン分析の非常に有用な部分を隠します。つまり、敷物の下に掃き寄せるのではなく、野外で事前に対処することを強制し、完全な事後の推論を行うことができます。


「いつものように、ベイジアン手法と頻度論的手法の基本的な違いを超えた哲学的なものはあまりありません(既におなじみのようです)。主なことは、尤度比検定です...」ベイズ因子と尤度比検定を比較するつもりはありませんが、頻度検定/帰無仮説検定の手荷物なしで、尤度比を単独で使用します。
マイクローレンス

上記の明確化に従って:したがって、BFとLRの大きな違いは、あなたが言うように、前者は複雑さを自動修正するが、多くの計算を必要とするのに対し、後者ははるかに少ない計算を必要とするが明示的な修正を必要とするように思われるモデルの複雑さ(計算が速いAICを使用するか、計算コストがかなり高いクロス検証を使用)。
マイクローレンス

申し訳ありませんが、尤度比テストはタイプミスであり、尤度比であるべきです。ほぼ正しいと思いますが、尤度比は単なるポイント推定であるという全体像を見逃しています。基礎となる確率分布がMLEの近傍で2次近似までうまく動作する場合にのみ有用になります。ベイズ因子はこのような漸近分布プロパティを考慮する必要がないため、特に一般的です。これは、包含し MLEベースのモデル選択推論を。
エリー

1
別の言い方をすれば、MLEは、事前の不適切な(統合がこれを許可する場合)だけで、事後推定量(MAP)の最大値と見なすことができ、MAPは事前情報を組み込むため、より説得力のあるポイント推定です。さて、単に事後モードを選択するのではなく...事後確率のすべての値を事前確率に従って組み合わせてみませんか?パラメーターのポイント推定値は得られませんが、ほとんどの場合、人々は実際にポイント推定値を望んでいません。パラメータの分布は、それらを取得する余裕がある場合、ポイントの推定よりも常に有用です
12

11

尤度比とベイズ因子の違いを理解する際に、ベイズ因子の1つの重要な特徴をより詳細に検討することが役立ちます。

ベイズ因子は、基礎となるモデルの複雑さをどのように自動的に説明しますか?

この質問の1つの視点は、決定論的な近似推論の方法を検討することです。変分ベイズはそのような方法の1つです。確率的近似(MCMCサンプリングなど)の計算の複雑さを劇的に減らすだけではありません。変分ベイズは、ベイズ因子を構成するものの直感的な理解も提供します。

ベイズ因子は2つの競合モデルのモデル証拠に基づいていることを最初に思い出してください。

BF1,2=p(dataM1)p(dataM2),

個々のモデルの証拠は、複雑な積分によって計算する必要があります:

p(dataMi)=p(dataθ,Mi) p(θMi) dθ

この積分は、ベイズ係数を計算するためだけに必要なわけではありません。また、パラメータ自体の推論、つまり計算にも必要です。p(θdata,Mi)

固定形式の変分ベイズアプローチは、条件付き事後分布に関する分布の仮定(たとえば、ガウスの仮定)を行うことにより、この問題に対処します。これにより、難しい積分問題がはるかに簡単な最適化問題に変わります。近似密度のモーメントを見つける問題は、真の、しかし未知の事後。q(θ)p(θdata,Mi)

変分法は、これが対数モデルの証拠に直接関係する、いわゆる負の自由エネルギー 最大化することで達成できることを示しています。F

F=logp(dataMi)KL[q(θ)||p(θdata,Mi)]

これから、負の自由エネルギーを最大化すると、近似の事後が得られるだけではないことがわかります。Kullback-Leiblerの発散は負ではないため、は(log)モデルの証拠自体の下限も提供しますq(θ)p(θdata,Mi)F

これで、ベイズ因子がどのように適合度と関連モデルの複雑さを自動的にバランスさせるかという元の質問に戻ることができます。負の自由エネルギーは、次のように書き換えることができます。

F=p(dataθ,Mi)qKL[q(θ)||p(θMi)]

最初の項は、おおよその事後条件で予想されるデータの対数尤度です。モデルの適合度(または精度)を表します。2番目の項は、おおよその事後と事前のKL発散です。より単純なモデルは以前の信念とより一貫性のあるモデルであるという見方、またはより単純なモデルはデータを収容するためにそれほど引き伸ばす必要がないという見方の下で、モデルの複雑さを表します。

対数モデルの証拠に対する自由エネルギー近似は、モデルの証拠がデータのモデル化(適合度)と以前の一貫性(つまり単純さまたは負の複雑さ)のトレードオフを組み込んでいることを示しています。

したがって、ベイズ因子(尤度比とは対照的に)は、2つの競合するモデルのどちらがデータのシンプルかつ正確な説明を提供するのに適しているかを示します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.