ベイジアン分析の尤度と条件付き分布

ベイズの定理は次のように書くことができます。

p (θ | x) = \frac{f (X | θ) p (θ)}{\int_{θ} f (X | θ) p (θ) d θ}

$p(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta}$

ここで、は事後、は条件付き分布、は事前分布です。 $p(\theta|x)$ $f(X|\theta)$ $p(\theta)$

または

p (θ | x) = \frac{L (θ | x) p (θ)}{\int_{θ} L (θ | x) p (θ) d θ}

$p(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta}$

ここで、は事後、は尤度関数、は事前確率です。 $p(\theta|x)$ $L(\theta|x)$ $p(\theta)$

私の質問は

なぜベイズ分析は条件付き分布ではなく尤度関数を使用して行われるのですか？
可能性と条件付き分布の違いは何ですか？可能性は確率分布ではなく、ことがわかっています。 $L(\theta|x) \propto f(X|\theta)$

bayesian likelihood

— kzoo
ソース

違いはありません！尤度は、条件付き分布に比例します。これは重要なことです。

f (X | θ)

$f(X | \theta)$

— kjetil b halvorsen 2012

以前のパラメーター密度はです。の実現に値、が確率変数観測値である場合、尤度関数は正確にであり、値条件付き密度のの。違いは、すべての実現に対してであることです。ただし、関数として

Θ

$\Theta$

p_{Θ} (θ)

$p_\Theta(\theta)$

Θ

$\Theta$

θ

$\theta$

x

$x$

X

$X$

L (θ ∣ x)

$L(\theta\mid x)$

f (x ∣ θ)

$f(x\mid \theta)$

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{X\mid\Theta}(x\mid\Theta=\theta)$

X

$X$

\int_{- \infty}^{\infty} f_{X ∣ Θ} (x ∣ Θ = θ) d x = 1

$\int_{-\infty}^{\infty}f_{X\mid\Theta}(x\mid\Theta=\theta)dx=1$

Θ

$\Theta$

θ

$\theta$ （および固定）、は密度ではありません：

x

$x$

L (θ ∣ x)

$L(\theta\mid x)$

\int L (θ ∣ x) d θ \neq 1

$\int L(\theta\mid x)d\theta\neq 1$

— Dilip Sarwate

回答:

仮定あなたは持っていることをことを考えると、条件付きで独立している（その値は、あなたの実験で観察される）確率変数を、と、条件付き密度、。これは（仮定）統計（条件付き）モデルであり、条件付き密度は、それぞれの可能な値のために、表現パラメータ（ランダム）のの値についての不確実性、の前に、あなたはどんなへのアクセス権を持っています実際のデータ。条件付き密度の助けを借りて、たとえば、次のような条件付き確率を計算できます $X_1,\dots,X_n$ $\Theta=\theta$ $f_{X_i\mid\Theta}(\,\cdot\mid\theta)$ $i=1,\dots,n$ $\theta$ $\Theta$ $X_i$

P {X_{1} \in B_{1}, \dots, X_{n} \in B_{n} ∣ Θ = θ} = \int_{B_{1} \times \dots \times B_{n}} \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) d x_{1} \dots d x_{n},

$P\{X_1\in B_1,\dots,X_n\in B_n\mid \Theta=\theta\} = \int_{B_1\times\dots\times B_n} \prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta)\,dx_1\dots dx_n \, ,$ それぞれの。

θ

$\theta$

実験の1回の実行で観測されたの値（実現）の実際のサンプルにアクセスできるようになると、状況が変化します。観測可能なに関する不確実性はなくなりました。ランダムながいくつかのパラメーター空間値を想定するとします。今、あなたはそれらの既知の（固定）値について、定義機能によってそのノート「尤度関数」として知られているが、の関数です。 $(x_1,\dots,x_n)$ $X_i$ $X_1,\dots,X_n$ $\Theta$ $\Pi$ $(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}} : Π \to R

$L_{x_1,\dots,x_n} : \Pi \to \mathbb{R} \,$

L_{x_{1}, \dots, x_{n}} (θ) = \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) .

$L_{x_1,\dots,x_n}(\theta)=\prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta) \, .$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

θ

$\theta$ 。この「データを取得した後」の状況では、は、検討している特定の条件付きモデルについて、この特定のサンプルに含まれるパラメーター。実際、は十分な統計量です。

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

あなたの質問に答えて、条件付き密度と可能性の概念の違いを理解するには、それらの数学的定義（明確に異なる：それらは異なる数学的オブジェクトであり、異なる特性を持つ）に留意し、条件付き密度は「事前-sample "オブジェクト/コンセプト。可能性は"サンプル後 "のものです。これらすべてが、ベイジアン推論（それを置く方法を使用して、私は理想的ではないと思います）が「条件付き分布ではなく尤度関数を使用して」行われる理由を説明するのにも役立つことを願っています。ベイズ推論の目標は事後分布を計算し、そのために観測された（既知の）データを条件とします。

— 禅
ソース

可能性と条件付き確率は異なると彼が言うとき、私は禅が正しいと思います。尤度関数では、θは確率変数ではないため、条件付き確率とは異なります。

— マルチン

比例は分析を簡素化するために使用されます

ベイジアン分析は一般に、ベイズの定理のさらに単純なステートメントを介して行われます。ここでは、対象のパラメーターに関する比例関係のみについて作業します。サンプリング密度が標準IIDモデルの場合、これを次のように表すことができます。 $f(X|\theta)$

p (θ | x) \propto L_{x} (θ) \cdot p (θ) L_{x} (θ) \propto \prod_{i = 1}^{n} f (x_{i} | θ) .

$p(\theta|\mathbf{x}) \propto L_\mathbf{x}(\theta) \cdot p(\theta) \quad \quad \quad \quad L_\mathbf{x}(\theta) \propto \prod_{i=1}^n f(x_i|\theta).$

このベイジアン更新のステートメントは、パラメーターに関する比例の観点から機能します。これは、2つの比例単純化を使用します。1つは尤度関数（サンプリング密度に比例）を使用し、もう1つは事後（尤度と事前分布の積に比例）を使用します。事後は密度関数（連続の場合）であるため、正規化ルールは、有効な密度を生成する（つまり、密度を1に統合する）のに必要な乗法定数を設定します。 $\theta$

この方法による比例の使用には、パラメーター依存しない関数の乗算要素を無視できるという利点があります。これは、数学の不要な部分を一掃して、更新メカニズムのより単純なステートメントを取得できるようにすることで、問題を単純化する傾向があります。これは数学的な要件ではありませんが（ベイズの規則も非比例形式で機能するため）、小さい動物の脳の場合は単純になります。 $\theta$

適用例：観測データを含むIIDモデルを考え。分析を容易にするために、統計を定義します and、これは最初の2つのサンプルモーメントです。このモデルには、サンプリング密度があります。 $X_1, ..., X_n \sim \text{IID N}(\theta, 1)$ $\bar{x} = \tfrac{1}{n} \sum_{i=1}^n x_i$ $\bar{\bar{x}} = \tfrac{1}{n} \sum_{i=1}^n x_i^2$

\begin{aligned} f (x | θ) = \prod_{i = 1}^{n} f (x_{i} | θ) & = \prod_{i = 1}^{n} N (x_{i} | θ, 1) \\ = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{1}{2} (x_{i} - θ)^{2}) \\ = (2 π)^{n / 2} \exp (- \frac{1}{2} \sum_{i = 1}^{n} (x_{i} - θ)^{2}) . \\ = (2 π)^{n / 2} \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ + \bar{\bar{x}})) \\ = (2 π)^{n / 2} \exp (- \frac{n \bar{\bar{x}}}{2}) \cdot \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \end{aligned}

$\begin{equation} \begin{aligned} f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i|\theta) &= \prod_{i=1}^n \text{N}(x_i|\theta,1) \\[6pt] &= \prod_{i=1}^n \frac{1}{\sqrt{2 \pi}} \exp \Big( -\frac{1}{2} (x_i-\theta)^2 \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{1}{2} \sum_{i=1}^n (x_i-\theta)^2 \Big). \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta + \bar{\bar{x}} ) \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n \bar{\bar{x}}}{2} \Big) \cdot \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \\[6pt] \end{aligned} \end{equation}$

これで、必要に応じて、このサンプリング密度を直接操作できます。ただし、この密度の最初の2つの項は依存しない乗法定数であることに注意してください。これらの用語を追跡する必要があるのは煩わしいので、それらを取り除いてみましょう。そうすれば尤度関数が得られます。 $\theta$

L_{x} (θ) = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) .

$L_\mathbf{x}(\theta) = \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big).$

追加の用語を追跡する必要がないため、これにより状況が少し簡略化されます。これで、積分分母を含む完全な方程式バージョンを使用してベイズのルールを適用できます。しかし、繰り返しになりますが、依存しない別の厄介な乗法定数を追跡する必要があります（これを取得するには積分を解決する必要があるため、さらに厄介です）。それでは、ベイズの法則をその比例形で適用してみましょう。共役事前、いくつかの既知の精度パラメーターを使用すると、次の結果が得られます（正方形を完成させることにより）： $\theta$ $\theta \sim \text{N}(0,\lambda_0)$ $\lambda_0>0$

\begin{aligned} p (θ | x) & \propto L_{x} (θ) \cdot p (θ) \\ = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot N (θ | 0, λ_{0}) \\ \propto \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot \exp (- \frac{λ_{0}}{2} θ^{2}) \\ = \exp (- \frac{1}{2} (n θ^{2} - 2 n \bar{x} θ + λ_{0} θ^{2})) \\ = \exp (- \frac{1}{2} ((n + λ_{0}) θ^{2} - 2 n \bar{x} θ)) \\ = \exp (- \frac{n + λ_{0}}{2} (θ^{2} - 2 \frac{n \bar{x}}{n + λ_{0}} θ)) \\ \propto \exp (- \frac{n + λ_{0}}{2} (θ - \frac{n}{n + λ_{0}} \cdot \bar{x})^{2}) \\ \propto N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) . \end{aligned}

$\begin{equation} \begin{aligned} p(\theta|\mathbf{x}) &\propto L_\mathbf{x}(\theta) \cdot p(\theta) \\[10pt] &= \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \text{N}(\theta|0,\lambda_0) \\[6pt] &\propto \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \exp \Big( -\frac{\lambda_0}{2} \theta^2 \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( n\theta^2 - 2n\bar{x} \theta + \lambda_0 \theta^2 ) \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( (n+\lambda_0) \theta^2 - 2n\bar{x} \theta ) \Big) \\[6pt] &= \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta^2 - 2 \frac{n\bar{x}}{n+\lambda_0} \theta \Big) \Big) \\[6pt] &\propto \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta - \frac{n}{n+\lambda_0} \cdot \bar{x} \Big)^2 \Big) \\[6pt] &\propto \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big). \\[6pt] \end{aligned} \end{equation}$

したがって、この作業から、事後分布が正規密度に比例することがわかります。事後は密度でなければならないため、これは事後がその通常の密度であることを意味します。

p (θ | x) = N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) .

$p(\theta|\mathbf{x}) = \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big).$

したがって、我々は見ることの事後パラメータ通常によって与えられた事後平均と分散で配布されます。 $\theta$

E (θ | x) = \frac{n}{n + λ_{0}} \cdot \bar{x} V (θ | x) = \frac{1}{n + λ_{0}} .

$\mathbb{E}(\theta|\mathbf{x}) = \frac{n}{n+\lambda_0} \cdot \bar{x} \quad \quad \quad \quad \mathbb{V}(\theta|\mathbf{x}) = \frac{1}{n+\lambda_0}.$

これで、導出した事後分布の前部に一定の積分があります（正規分布の形式を調べることで簡単に見つけることができます）。ただし、この乗法定数について心配する必要はなかったことに注意してください。これにより、数学が簡略化されるたびに、すべての作業で乗法定数が削除（または導入）されました。乗算定数を追跡しながら同じ結果を導き出すことができますが、これはかなり面倒です。

— ベン-モニカの復活
ソース

Zenの答えは、確率変数と確率変数の値の結合密度が概念的にどのように異なるかを実際に示していると思います。それでも数学的には、x sとθの両方の関数として、それらは同じであり、その意味で、尤度は確率密度として見ることができます。ベイズ事後分布の式で指定する違いは、表記上の違いです。しかし、違いの微妙さはZenの答えでうまく説明されています。 $_i$

この問題は、尤度関数に関してこのサイトで議論されている他の質問で出てきました。また、kjetilとDilipによる他のコメントは、私が言っていることをサポートしているようです。

— マイケル・R・チェニック
ソース