非共役事前

私たちが選択した事前分布が非共役である場合、事後密度の積分が「分析的に扱いにくい」とは言えない理由を誰かが説明できますか？

bayesian

Binomiaモデルを考えてみましょう：それは積分の解析式を見つけるために、何の可能ません

すべての事前のための

。

\int_{0}^{1} θ^{x} (1 - θ)^{n - x} π (θ) d θ

$\int_0^1 \theta^x (1-\theta)^{n-x} \pi(\theta)\,d\theta$

π (θ)

$\pi(\theta)$

— Zen

@Zenはおそらく回答に拡張する価値があります（ほんの少し。基本的には根本的な問題を非常にうまくカバーしています）。

— Glen_b-モニカを

100％正解です。@ Glen_bですが、これをどのように説明すればよいかわかりません。ポイントは、事後が同じファミリーである場合、統合をまったく行わないということです。密度の「カーネル」を特定するだけです。それは私たちが何度もやると明らかになるものです。

— Zen

心配はいりません、@ Zen、私は答えを危険にさらします。

— Glen_b-モニカを

共役が良いのは、以前のpdfに対処できれば、後部でも同じことができるはずです（同じ形式であるため）-もちろん、以前の共役ではありません。

積分の扱いやすさは、実際のベイズ計算ではどのように考えられますか？

パラメータについて推論したいとします。 $\theta$

$p(\theta|\mathbf x) \propto p(\mathbf x|\theta)\cdot p(\theta)$

ここで、右側の最初の項は尤度、2番目の項は事前確率です。問題は基本的に、右側の密度を得るために必要な比例定数を評価することです。そして、それを使ってさまざまなことができるようにしたいと思うかもしれません（たとえば、それを描く;要約統計量を見つける-その平均、またはそのモード、またはいくつかの分位数;おそらくそれからのサンプルさえ）。とにかく、何らかの方法でその積分を見つけることができると便利です。おそらく最も自然で明白なことは、「代数的に」それを見つけようとすることです。つまり、積分を評価するための通常のトリックを使用します。

通常、私たちが本当に扱いにくいとは、「分析的に扱いにくい」ですが、場合によっては、もう少し緩く使用されることもあります。ある意味では、「扱いにくい」のさまざまな値に対して、「ほとんどの」積分は扱いにくいです（積分の説明までスクロールしてください）。

例

Zenが2項モデルの非常に単純な例でさえ指摘しているように、後部の積分を代数的に行うことができるという保証はありません。

これが別の例です（私が見たものの簡略版が出てきます）：

ベイズを考えてみましょう後部分散のために、知ら平均の正規分布の。共役事前分布は逆ガンマですが、対数正規事前分布が必要な場合はどうでしょうか。 $\sigma^2$ $\mu$

次に、被積分関数が

p （ σ^{2} | μ 、 y ） α p （ y | μ 、 σ^{2} ） \cdot p （ σ^{2} ）

$p(\sigma^2|\mu,\mathbf y)\propto p(\mathbf y|\mu,\sigma^2)\cdot p(\sigma^2)$

ここでも右の第一項 $\propto$ 尤度であり、第二は、従来あります。

その可能性は次の形式です。

f （ σ^{2}; α 、 β ） = \frac{β^{α}}{Γ （ α ）} （ σ^{2} ）^{- α - 1} \exp （ - \frac{β}{σ^{2}} ）

$f(\sigma^2; \alpha, \beta)= \frac{\beta^\alpha}{\Gamma(\alpha)}(\sigma^2)^{-\alpha - 1}\exp\left(-\frac{\beta}{\sigma^2}\right)$

$\alpha$ $\beta$ $y$ $n$ $\mu$

f （ σ^{2}; θ 、 τ ） = \frac{1}{σ^{2} τ \sqrt{2 π}} e^{- \frac{（ \ln σ^{2} - θ ）^{2}}{2 τ^{2}}}

$f(\sigma^2;\theta,\tau) = \frac{1}{\sigma^2 \tau \sqrt{2 \pi}}\, e^{-\frac{(\ln \sigma^2 - \theta)^2}{2\tau^2}}$

...そして、それらの製品は、代数的に「うまく」対処しようとするものではありません。たとえば、Wolfram Alphaは積分*を行うことができず、私よりも妥当な時間内にこのようなものを取得する可能性が高くなります。

$x$ $\sigma^2$ $x^{-\alpha - 2} \exp(-\frac{\beta}{x}-\frac{(\ln x - \theta)^2}{2\tau^2})$ $(0,\infty)$

分析の難しさに対するいくつかのアプローチの議論

人々が分析的に「良い」事前情報を選択する傾向があるという事実（特に、主題を教えるときだけでなく、実際の問題でも頻繁に）がなければ、ほとんど毎回問題が発生します。分析的に優れた事前分布を選択することが間違っていると言っているわけではありません。通常、事前の情報については漠然とした意味しかありません（特定の事前分布を念頭に置いていることはめったにありませんが、考えられる値または可能性のある値についてはある程度の概念があるかもしれません。たとえば、前の確率のほとんどをどこにしたいか、または大まかに平均がどこにあるかもしれないかという広い意味。たとえば、自分の事前および共役事前にどの特定の関数形が必要かわからない場合以前に知りたい情報を反映します。これは、かなり合理的な選択になる場合があります）。

ただし、実際には、この問題をさまざまな方法で処理することは依然として可能です。たとえば、さまざまな精度で事後を近似できます。以下にいくつかの例を示します（決して網羅的ではありません）。（i）希望の事前分布をさまざまな方法で概算する-おそらく共役またはその他の扱いやすい事前分布の混合物によって-事後に対して対応する混合物を生成する、または（ii）適切な数値積分（一変量の場合は驚くほどうまく機能します）、または（iii）積分を知らなくてもこの分布からシミュレーションできます-おそらく、リジェクションサンプリングまたはMetropolis-Hastingsタイプの Markov Chain-Monte Carloをアルゴリズムを使用して、適切な境界関数または近似値）。

これまで、この問題に対する一般的なアプローチには、数値積分（または高次元でのモンテカルロ積分）とラプラス近似が含まれる傾向がありました。実際、これらは依然として多くの問題で使用されていますが、他にも多くのツールがあります。

最近のMCMCのさまざまなバージョンと関連するサンプリングアプローチを使用してベイジアンの作業が行われていることを考えると、分析の扱いやすさは、多数のパラメーターの問題があっても、かつてないほど問題ではありません-3つすべてを確認しました上記で言及したアプローチがそのコンテキストで使用されました。これは、私たちが以前の知識をどの程度反映しているか、または推論を正則化するその能力-代数的操作の容易さではなく、私たちの推論への適合性に基づいて、私たちが望む事前だけを自由に選択できることを意味します。したがって、たとえば、Andrew Gelman が階層モデルの分散パラメーターでハーフコーシーとハーフtの事前確率の使用を推奨していることがわかります。ロジスティック回帰での情報量の少ないコーシー事前分布（ただし、その論文はMCMCを使用せず、通常の反復重み付け最小二乗とロジスティック回帰のEMを組み合わせて近似推論を実現しています）。

— Glen_b-モニカの復活
ソース