データが事前分布を決定し、これらの事前分布を使用してモデルを実行できるようにしますか?(例えば、同じデータセットからのデータ駆動型事前分布)


9

ベイジアン分析で以前の分布がどのように見えるかを決定するために、分析しているのと同じデータセットを許可するべきではないというのが私の理解です。具体的には、モデルの適合に役立つように事前分布を使用するのと同じデータセットからの要約統計に基づくベイズ分析の事前分布を定義することは不適切です。

これを不適切であると具体的に説明しているリソースを知っている人はいますか?この問題についていくつかの引用が必要です。


回答:


11

はい、これは同じデータを2回使用するため不適切であり、誤って自信過剰の結果をもたらします。これは「ダブルディッピング」として知られています。

参考までに、Carlin and Louis(2000)から始めます。「ダブルディッピング」は、経験的ベイズの主要な批評の1つですが、Ch。この本の3、特にセクション3.5では、EBアプローチを使用して適切な信頼区間を推定する方法について説明しています。

Berger J(2006)。\客観的なベイズ分析のケース。 "ベイズ分析、1(3)、385 {402

ブラッドリーP.カーリン、トーマスA.ルイス2000。データ分析のためのベイズ法と経験的ベイズ法。

Darniede、WF2011。データ依存事前分布のベイズ法。修士論文、オハイオ州立大学

Gelman、A.、Carlin、JB、Stern、HS、およびRubin、DB(2003)、Bayesian Data Analysis、Second Edition(Chapman&Hall / CRC Texts in Statistical Science)、Chapman and Hall / CRC、2nd ed。


@sarah質問を取り戻すために、アカウントを登録してください。次のURLにアクセスしてください:stats.stackexchange.com/users/login

1

ただし、データを使用して以前のものを構築することは理にかなっています。

混合モデリングの例については、Richardson&Green(1997)を参照してください:http : //citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

彼らは、データポイントの平均と範囲を事前のハイパーパラメーターとして使用し、それは完全に理にかなっています。

私の意見では、有益な事前情報がデータから導出されると、データを2回使用する問題が発生します。

事前分布が事後分布のピークとなる「フラット」であることを確認する限り、事前分布が結果に大きな影響を与えていないことがわかります。


データを使用して事前分布を構築することは、ベイジアンパラダイム内では実行できません。したがって、ベイジアンの観点からは意味がなく、ベイジアン手順の通常の検証は適用されません。結果として得られる推論は完全に有効ですが、第一の原則からそれを実証する必要があります。(リチャードソンとグリーンは、経験的なベイズと呼ばれるものを使用しています。これはベイジアン法ではありません。)
西安

ベイジアンパラダイム内では意味がありませんが、データと事前の境界線を描くのが難しい場合があります。stats.stackexchange.com/questions/112451/…
kjetil b halvorsen
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.