ベイジアン予測分布について


9

ベイズ入門コースを受講していますが、予測分布を理解するのが困難です。なぜそれらが役立つのか理解していて、その定義に精通していますが、よくわからないことがいくつかあります。

1)新しい観測のベクトルの正しい予測分布を取得する方法

データのサンプリングモデルと以前の作成したと仮定します。与えられた場合、観測は条件付きで独立していると仮定します。p(yi|θ)p(θ)yiθ

いくつかのデータ、以前のを後部に更新します。D={y1,y2,...,yk}p(θ)p(θ|D)

新しい観測のベクトルを予測したい場合、、Iこの式 これはと等しくありません なので、予測された観測は独立していませんよね?N={y~1,y~2,...,y~n}

p(N|D)=p(θ|D)p(N|θ)dθ=p(θ|D)i=1np(y~i|θ)dθ,
i=1np(θ|D)p(y~i|θ)dθ,

その言います Beta()および Binomial()(固定。この場合、6つの新しいをシミュレートする場合、これを正しく理解していれば、単一の観測の事後予測に対応するベータ二項分布から独立して6つのドローをシミュレートするのは誤りです。これは正しいです?観測値がわずかに独立していないと解釈する方法がわかりません。これを正しく理解しているかどうかはわかりません。θ|Da,bp(yi|θ)n,θny~

事後予測からのシミュレーション

多くの場合、事後予測からのデータをシミュレートするときは、次のスキームに従います。

以下のための 1から:bB

1)からサンプル。θ(b)p(θ|D)

2)次に、から新しいデータをシミュレートします。N(b)p(N|θ(b))

直感的には見えますが、このスキームが機能することを証明する方法はよくわかりません。また、これには名前がありますか?理由を調べて別の名前を試しましたが、運がありませんでした。

ありがとう!


私はstats.stackexchange.com/questions/72570/で同様の質問をしましたが、あなたの質問はこれまでより多くの賛成票を受け取っているようです。
John

回答:


4

は、場合、条件付きで独立していると仮定します。次に、 最初の等式は総確率の法則に従い、2番目の等式は積の規則に従い、3番目の等式は仮定の条件付き独立性から続きます:の値が与えられますX1,,Xn,Xn+1Θ=θ

fXn+1X1,,Xn(xn+1x1,,xn)=fXn+1,ΘX1,,Xn(xn+1,θx1,,xn)dθ
=fXn+1Θ,X1,,Xn(xn+1θ,x1,,xn)fΘX1,,Xn(θx1,,xn)dθ
=fXn+1Θ(xn+1θ)fΘX1,,Xn(θx1,,xn)dθ,
Θ、分布を決定するためにの値は必要ありません。X1,,XnXn+1

シミュレーションスキームは正しいです:場合、の分布からを描画し、次に描画しますの分布から。これにより、の分布からのサンプル得られます。i=1,,Nθ(i)ΘX1=x1,,Xn=xnxn+1(i)Xn+1Θ=θ(i){xn+1(i)}i=1NXn+1X1=x1,,Xn=xn


複数の期間にわたって事後予測を得ている場合はどうでしょうか?私は各を使用してきましたが、新しいthetaを再描画することが理にかなっている理由がわかります。θ(i)xn+j
John

2

ステップごとに事後予測分布を生成することの背後にある直感について説明します。

してみましょう確率分布から来た観測データのベクトルであるとlet将来のベクトルである(またはアウト・オブ・サンプル)我々が予測する値。我々は仮定と同じ分布から来ている。この分布に関する情報を取得するために、MLEやMAPの見積もりなど、最良の見積もりを使用するのは魅力的です。ただし、そうすることでに関する不確実性を無視することは避けられません。したがって、処理を進める適切な方法は、事後分布全体で平均化すること、つまりです。注意してくださいまた、そのyp(y|θ)y~y~yθθθp(θ|y)y~独立している所与同じ分布から引き出される独立したサンプルであると仮定されているように、。したがって、yθy

p(y~|θ,y)=p(y~,y|θ)p(θ)p(θ,y)=p(y~|θ)p(y|θ)p(θ)p(y|θ)p(θ)=p(y~|θ).

したがって、の事後予測分布は、y~

p(y~|y)=Θp(y~|θ,y)p(θ|y)dθ=Θp(y~|θ)p(θ|y)dθ

ここで、はのサポートです。Θθ

では、どのようにしてからサンプルを取得するのでしょうか。説明する方法は、合成方法とも呼ばれ、次のように機能します。p(y~|y)


s = 1,2、...、Sの場合

からを描画しますθ(s)p(θ|y)

からを描画y~(s)p(y~|θ(s))


ここで、ほとんどの状況では、すでにからの描画があるため、2番目のステップのみが必要です。p(θ|y)

これが機能する理由は非常に単純です。最初に、ことに注意してください。したがって、からパラメータベクトルをサンプリングし、次にこのベクトルを使用してからをサンプリングしますは、共同分布からサンプルを生成します。したがって、サンプル値は、周辺分布からのサンプルです。p(y~,θ|y)=p(y~|θ,y)p(θ|y)θ(s)p(θ|y)y~(s)p(y~|θ(s))=p(y~|θ(s),y)p(y~,θ|y)y~(s),s=1,2,...,Sp(y~|y)


1

最初の質問に対処するには、はい、値がわからない場合、観測値は独立していません。たとえば、値がかなり極端であることを確認しました。これは、自体の未知の値が極端であることを示している可能性があるため、他の観測値も極端であることを期待する必要があります。θy~1θ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.