サンプルサイズが大きいと、ベイジアン事前分布は無関係になりますか?


26

ベイジアン推論を実行する場合、パラメーターについて持っている事前確率と組み合わせて尤度関数を最大化することにより動作します。対数尤度がより便利であるため、MCMCを使用して、または事後分布を生成する(PDFを使用してを効果的に最大化し各パラメーターの事前確率と各データポイントの尤度)。ln(prior)+ln(likelihood)

大量のデータがある場合、そこから得られる可能性は、単純な数学によって、以前のデータが提供する情報を圧倒します。最終的に、これは設計上適切です。事後は、想定されているため、より多くのデータで尤度に収束することがわかっています。

共役事前分布によって定義された問題の場合、これは正確に証明できます。

与えられた尤度関数とサンプルサイズに対して事前分布が重要でない場合を決定する方法はありますか?


3
最初の文は正しくありません。ベイジアン推論とMCMCアルゴリズムは、尤度を最大化しません。
niandra82

5
限界尤度、ベイズ因子、事前/事後予測分布、事前/事後予測チェックに精通していますか?これらは、ベイジアンパラダイムのモデルを比較するために使用するものです。この質問は、サンプルサイズが無限大になったときに、前のものだけが異なるモデル間のベイズ因子が1に収束するかどうかに帰着すると思います。ターゲットが最尤推定値に収束するのを潜在的に拒否する可能性があるため、尤度によって暗示されるパラメータ空間内で切り捨てられた事前分布を破棄することもできます。
ザカリーブルーメンフェルド

@ZacharyBlumenfeld:これは適切な答えとなる可能性があります!
西安

修正された形式は「ベイズのルールを最大化する」ですか?また、私が作業しているモデルは物理ベースであるため、切り捨てられたパラメータースペースは作業に必要です。(私はあなたのコメントがおそらく答えであることにも同意します、@ ZacharyBlumenfeldを具体化してもらえますか?)
ピクセル

回答:


37

簡単ではありません。データ内の情報は、サンプルサイズが大きいだけでなく、データが以前の情報を圧倒するのに十分な情報を提供するときに、以前の情報を圧倒します。情報量の少ない事前情報はデータによって簡単に説得されますが、情報量の多い事前情報はより耐性があります。極端な場合、事前定義が不明確な場合、データはそれを克服できない可能性があります(たとえば、一部の地域で密度がゼロ)。

ベイズの定理により、統計モデルで2つの情報源、データ切れ、事前情報、および尤度関数のデータによって伝達される情報を使用することを思い出してください。

posteriorprior×likelihood

情報のない事前(または最尤)を使用する場合、可能な限り最小限の事前情報をモデルに取り込むようにします。有益な事前情報を使用して、かなりの量の情報をモデルに取り込みます。そのため、データと事前の両方から、推定パラメーターのどの値がより妥当であるか、または信頼できるかがわかります。それらは異なる情報をもたらすことができ、それぞれが他の情報を圧倒する場合があります。

これを非常に基本的なベータ二項モデルで説明します詳細な例こちらをご覧ください)。では、「無益」前に、かなり小さなサンプルを圧倒するのに十分かもしれません。以下のプロットでは、異なるサンプルサイズの同じモデルの事前分布(赤い曲線)、尤度(青い曲線)、および事後分布(紫色の曲線)を見ることができます。

ここに画像の説明を入力してください

一方、真の値に近い有益な事前情報を使用することもできますが、これも簡単ですが、データによって説得される毎週の有益な情報ほど簡単ではありません。

ここに画像の説明を入力してください

ケースは、データが言うことから遠く離れている場合(最初の例と同じデータを使用)、情報の事前とは大きく異なります。そのような場合、以前の問題を克服するには、より大きなサンプルが必要です。

ここに画像の説明を入力してください

したがって、サンプルサイズだけでなく、データと事前データも重要です。これがあることに注意してください希望有益な事前分布を使用するときに我々がいるので、行動したい潜在的に我々のモデルでは外のデータの情報を含めるようにし、大きなサンプルは常に事前分布を捨てるならば、これは不可能であろう。

複雑な事後尤度優先関係のため、事後分布を見て、事後予測チェックを行うことは常に良いことです(Gelman、Meng and Stern、1996; Gelman and Hill、2006; Gelman et al、2004)。さらに、Spiegelhalter(2004)で説明されているように、さまざまな事前分布を使用できます。たとえば、大きな効果に対する疑念を表す「悲観的」や、推定効果について楽観的な「熱狂的」などです。異なる事前分布がデータとどのように動作するかを比較すると、事後分布が事前分布によってどの程度影響を受けたかを非公式に評価するのに役立つ場合があります。


Spiegelhalter、DJ(2004)。ベイズのアイデアを医療評価に取り入れる。統計科学、156-174。

ゲルマン、A。、カーリン、JB、スターン、HS、およびルービン、DB(2004)。ベイジアンデータ分析。チャップマン&ホール/ CRC。

Gelman、A. and Hill、J.(2006)。回帰およびマルチレベル/階層モデルを使用したデータ分析。ケンブリッジ大学出版局。

Gelman、A.、Meng、XL、およびStern、H.(1996)。実現された差異によるモデルの適合性の事後予測評価。Statistica sinica、733-760。


2
素晴らしい貢献、ティムありがとう。ここで非常にうまくレイアウトしたコントラストは、そのモデルの異なるパラメーターに関連する同一のモデル内でも表示される可能性があることを付け加えます。データが無視できる情報を提供するパラメータがいくつかある場合があります。その場合、事前確認は識別制限を提供するために非常に役立つ可能性があります。
デビッドC.ノリス

グラフの最初の3x3マトリックスでは、グラフは正しいですか?後部はn = 25まで完全に平らですか?
ミシガン州

1
@MichiganWaterの各9プロットコレクションは、y軸に同じスケールを使用して、最大値が画面から出ないようにします。そのため、データが多い場合と比較してフラットです。「ズームイン」すると、フラットになりません。
ティム

11

ベイジアン推論を実行する場合、パラメータについて持っている事前確率と組み合わせて尤度関数を最大化することにより動作します。

これは実際、ほとんどの開業医がベイジアン推論であると考えるものではありません。この方法でパラメーターを推定することは可能ですが、ベイジアン推論とは呼びません。

ベイジアン推論では、事後分布を使用して、競合する仮説の事後確率(または確率の比率)を計算します。

事後分布は、モンテカルロ法またはマルコフチェーンモンテカルロ法(MCMC)によって経験的に推定できます。

これらの区別はさておき、質問

サンプルサイズが大きいと、ベイジアン事前分布は無関係になりますか?

それでも問題のコンテキストとあなたが気にするものに依存します。

すでに非常に大きなサンプルを与えて予測することが重要な場合、一般に答えは「はい」であり、事前分布は漸近的に無関係です*。ただし、モデルの選択とベイズ仮説検定が重要な場合、答えは「いいえ」であり、事前分布は重要であり、その効果はサンプルサイズによって低下しません。

*ここでは、事前確率が尤度によって暗示されるパラメータ空間を超えて切り捨てられたり、打ち切られたりせず、重要な領域でゼロ密度に近い収束問題を引き起こすほど不明確ではないと仮定しています。私の議論も漸近的であり、通常の注意事項がすべて付属しています。

予測密度

dN=(d1,d2,...,dN)dif(dNθ)θ

次に、ハイパーパラメーターによって異なる2つのおよびも指定するとします。π 0θ | λ 2λ 1λ 2π0(θλ1)π0(θλ2)λ1λ2

各事前分布は、有限サンプル異なる事後分布につながります。

πNθdNλjfdNθπ0θλjforj=12

まかせ suito真のパラメータ値であっても、および、、、およびはすべて確率で収束する。場合、より正式にば、θ J Nπ Nθ | D Nλ Jθ N = maxのθ { F D N | θ } θ 1 Nは、 θ 2 N θ N θ * ε > 0をθθNjπNθdNλjθ^N=最大θ{fdNθ}θN1θN2θ^Nθε>0

リムNPr|θNjθ|ε=0j{12}リムNPr|θ^Nθ|ε=0

最適化手順の一貫性を高めるために、代わりにを定義できますが、このパラメーターは非常に異なりますがその後、前に定義したように、上記の漸近性は依然として保持されます。θNj=最大θ{πNθdNλj}

予測密度は、で適切なベイジアンアプローチまたは最適化を使用して、分布をに収束させます。したがって、すでに非常に大きいサンプルを条件とする新しい観測を予測するという点では、前の仕様では漸近的に違いはありません。fddNλj=ΘfdθλjdNπNθλjdNdθfddNθNjfddNθ

モデル選択と仮説検定

ベイジアンモデルの選択と仮説検定に興味がある場合、事前の効果が漸近的に消えないことに注意する必要があります。

ベイジアン設定では、事後確率または限界尤度を持つベイズ因子を計算します。限界尤度は、モデル、つまり与えられたデータの尤度です。fdNmodel

2つの代替モデル間のベイズ係数は、限界尤度の比率です。 各モデルの事後確率モデルのセットは、限界尤度からも計算できます。 これらは、モデルの比較に使用される便利なメトリックです。

KN=fdNmodel1fdNmodel2
PrmodeljdN=fdNmodeljPrmodeljl=1LfdNmodellPrmodell

上記のモデルの場合、限界尤度は次のように計算されます。

fdNλj=ΘfdNθλjπ0θλjdθ

ただし、サンプルに観測値を順次追加することも考えられ、限界尤度を予測尤度のチェーンとして書くことができます。 上記からがに収束することを知っていますが、通常、に収束することも、に収束することもありません

fdNλj=n=0N1fdn+1dnλj
fdN+1dNλjfdN+1dNθfdNλ1fdNθfdNλ2。上記の製品表記を考えると、これは明らかです。製品の後半の用語はますます似ていますが、初期の用語は異なります。このため、ベイズ因子 これは、尤度と事前確率が異なる代替モデルのベイズ係数を計算する場合の問題です。たとえば、限界尤度 ; 次に
fdNλ1fdNλ2p1
hdNM=ΘhdNθMπ0θMdθ
fdNλ1hdNMfdNλ2hdNM
漸近的またはそれ以外。事後確率についても同じことが言えます。この設定では、事前サイズの選択は、サンプルサイズに関係なく推論の結果に大きく影響します。

5

留意すべきもう1つの問題は、大量のデータを取得できても、モデルの特定のパラメーターに関する情報がほとんどないことです。そのような場合、推論を実行するときに、わずかに有益な事前情報でさえ非常に役立ちます。

愚かな例として、2つのグループの平均を比較し、グループ1の1,000,000個のサンプルとグループ2の10個のサンプルがあると仮定します。サンプル。

そして、その例は些細なことかもしれませんが、それはいくつかの非常に重要な含意を導き始めます。複雑な現象を理解したい場合、賢明なことは、理解できない部分に関する多くの情報を収集し、理解している部分に関する情報を少なくすることです。このような方法で大量のデータを収集する場合、大量のデータがあるため事前データを破棄するのは本当に悪い選択です。既に知っていることに関するデータを収集するのに時間を浪費しなかったので、分析を遅らせただけです!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.