誰でも共役事前確率を可能な限り簡単な用語で説明できますか?


23

私はしばらくベイズ統計の共役事前分布の概念を理解しようと試みてきましたが、私はそれを理解していません。おそらく「ガウス事前分布」を例として使用して、誰でも考えを最も簡単な用語で説明できますか?

回答:


23

パラメーターの事前確率は、ほとんどの場合、特定の機能形式(通常、密度の観点から記述)を持ちます。分布の特定のファミリーに限定するとします。この場合、事前分布を選択すると、そのファミリーのパラメーターを選択することになります。

例えば、通常のモデルを検討YiiidN(μ,σ2)。簡単にするために、のも見てみましょうσ2知られているように。モデルのこの部分-データのモデル-尤度関数を決定します。

ベイジアンモデルを完成させるには、ここで事前分布が必要μです。

上記のように、通常、事前分布に分布族を指定し、その分布のパラメーターを選択するだけです(たとえば、多くの場合、事前情報はかなり曖昧な場合があります-ほぼ確率を集中させたい場合-非常に具体的な機能形式ではなく、パラメータを選択することで必要なものをモデル化するのに十分な自由がある場合があります-以前の平均と分散に一致するように言います)。μ

の事後分布が事前分布同じファミリーのものであることが判明した場合、その事前分布は「共役」と呼ばれます。μ

(共役になることが判明するのは、尤度と組み合わせる方法です)

したがって、この場合には、のためにガウス前にみましょう(言うμ N θ τ 2)。そうすると、μの事後分布もガウス分布になることがわかります。したがって、ガウス事前分布は、上記のモデルの共役事前分布でした。μμN(θ,τ2)μ

それだけです-事後が事前と同じファミリーからのものである場合、それは共役事前です。

単純なケースでは、尤度を調べることで事前に共役を特定できます。たとえば、二項尤度を考えます。定数を削除すると、ベータ密度のように見えます。および方法のための力のP1 - P コンバイン、それはまたのべき乗の積与える前に乗算ベータによって意志のp1 - pは我々は可能性から、すぐに見ることができるように...ベータは、二項尤度のpの事前共役です。pp(1p)p(1p)p

ガウスの場合、対数密度と対数尤度を考慮することで発生することを確認するのが最も簡単です。対数尤度はの2次であり、2つの2次の合計は2次です。そのため、2次の対数優先+ 2次の対数尤度は2次の事後を与えます(もちろん、最高次項の係数はそれぞれ負になります)。μ


9

モデルは、に属している場合、指数ファミリー分布の密度がフォームである場合、であり、

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
に対して所定の支配的尺度、(ルベーグ、カウント、およびTC)ts上意味A内積Rd
T:XRdS:ΘRd
測定関数である、上の共役事前確率θフォームの密度によって定義される
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[に対して任意に選択された支配的な尺度 dνΘを有する]
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
およびλΛR+ξΞλT(X)

優越尺度の選択は、事前分布のファミリーにとって決定的です。例えば1は上の通常の平均可能性直面している場合はμのようにGlen_bの答え、ルベーグ測度の選択dμ通常の事前確率が共役であることに支配的な対策のリード線などを。代わりに、1つを選択した場合(1+μ2)2dμ支配的な尺度としては、共役事前確率は密度の分布のファミリー内にある

exp{α(μμ0)2}α>0,  μ0R
この支配措置に関しては、もはやので、通常の事前確率です。この困難は、尤度の特定のパラメーター化を選択し、このパラメーター化のためにルベーグ測度を選択することと本質的に同じです。尤度関数に直面した場合、パラメータ空間には固有の(または固有の、または参照の)支配的な尺度はありません。

この指数ファミリー設定の外には、共役事前確率を可能にする固定サポートを持つ分布の非自明なファミリーはありません。これはDarmois-Pitman-Koopmanの補題の結果です。


11
「可能な限り簡単な言葉で?」おそらく、対策の事前知識を前提としない説明がOPにとってより役立つでしょう。

3
残念ながら、共役の事前確率はメジャーバックグラウンドなしでは無意味であると思います(たとえこれが宇宙で最もよく守られているとしても)。
西安

6
私の意見では、「最も簡単な用語」は解釈に開放されており、メジャー理論などの高度な数学を使用する説明は、ある意味で「単純」である可能性があります。いずれにせよ、そのような説明は、それを理解するのに必要な背景を持っている人にとって非常に啓発的であり、トピックを説明するさまざまな方法のリストにこのような答えを含めることは無害です。私たちはOPのためだけでなく、将来のすべての読者のために答えを書きます。
littleO

1
@LBogaardtこの回答がトピックとより適切なレベルの両方であると思われる1つ以上の質問にリンクできる場合、あなたの批判はより重要になります。「シンプル」は明確に定義された用語ではなく、主観的な解釈が異なることに留意してください。とにかく、あなたのコメントが示唆するように、「数学的に洗練されていない」と混同することは無効です。
whuber

2
西安の答えは役に立たない。私は何かを学びました。
ほとんど

2

ディストリビューションの「カーネル」という概念を使用するのが好きです。これは、パラメータに依存する部分のみを残す場所です。いくつかの簡単な例。

通常カーネル

p(μ|a,b)=K1×exp(aμ2+bμ)
K "正規化定数"であり、K=exp(aμ2+bμ)dμ=πaexp(b24a) 標準の平均/分散パラメーターとの関係はE(μ|a,b)=b2aおよびVar(μ|a,b)=12a

ベータカーネル

p(θ|a,b)=K1×θa(1θ)b
ここで、K=θa(1θ)bdθ=Beta(a+1,b+1)

尤度関数を見ると、同じことができ、それを「カーネル形式」で表現できます。たとえば、iidデータ

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

いくつかの定数Qといくつかの関数f(μ)。この関数をカーネルとして認識できれば、その尤度の前に共役を作成できます。単位分散で正規尤度をとると、上記は

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.