最大事後推定の例

私は最尤推定と最大事後推定について読んでいますが、これまでは、最尤推定でのみ具体的な例に出会いました。私は最大の事後推定のいくつかの抽象的な例を見つけましたが、それに数値を付けた具体的なものはまだありません：S

それは非常に圧倒的で、抽象的な変数と関数でのみ機能し、この抽象性に溺れないようにするために、物事を時々現実の世界に関連付けるのは素晴らしいことです。しかし、もちろん、これは私の（そして他の人々の）観察にすぎません:)

したがって、数字が記載された最大の事後推定の簡単で具体的な例を誰かに教えてもらえますか？それはとても役に立ちます:)

ありがとうございました！

私は最初にこの質問をMSEに投稿しましたが、そこで回答を得ることができませんでした：

/math/449386/example-of-maximum-a-posteriori-estimation

私はここにクロスポストで与えられた指示に従いました：

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

bayesian estimation posterior

— ジェプソミ
ソース

最初の例

典型的なケースは、自然言語処理のコンテキストでのタグ付けです。詳細はこちらをご覧ください。基本的には、文中の単語の語彙カテゴリ（名詞、形容詞など）を判別できるようにすることです。基本的な考え方は、隠れマルコフモデル（HMM）で構成される言語のモデルがあるということです。このモデルでは、隠された状態は語彙のカテゴリに対応し、観察された状態は実際の単語に対応します。

それぞれのグラフィカルモデルには次のような形式があります。

正準HMMのグラフィカルモデル

ここで、は文中の単語のシーケンスであり、はシーケンスですタグの。 $\mathbf{y} = (y1,...,y_{N})$ $\mathbf{x} = (x1,...,x_{N})$

トレーニングが完了すると、目的は、指定された入力文に対応する語彙カテゴリの正しいシーケンスを見つけることです。これは、言語モデルによって生成された可能性が最も高い/最も互換性のあるタグのシーケンスを見つけることとして定式化されます。

f (y) = {a r g m a x}_{x \in Y} p (x) p (y | x)

$f(y) = \mathbf{argmax}_{\mathbf{x} \in Y}p(\mathbf{x})p(\mathbf{y}|\mathbf{x})$

2番目の例

実際、より良い例は回帰です。理解が容易になるだけでなく、最尤（ML）と最大事後（MAP）の違いが明確になるためです。

基本的に、問題は、サンプルによって与えられたいくつかの関数を基底関数のセットの線形結合で近似することここで、は基底関数であり、は重みです。通常、サンプルはガウスノイズによって破損していると想定されます。したがって、ターゲット関数がそのような線形結合として正確に記述できると仮定すると、次のようになります。 $t$

y (x; w) = \sum_{i} w_{i} ϕ_{i} (x)

$y(\mathbf{x};\mathbf{w}) = \sum_{i}w_{i}\phi_{i}(\mathbf{x})$

ϕ (x)

$\phi(\mathbf{x})$

w

$\mathbf{w}$

t = y (x; w) + ϵ

$t = y(\mathbf{x};\mathbf{w}) + \epsilon$

我々は持っているのでこの問題のML解は最小化と等価です、 $p(t|\mathbf{w}) = \mathcal{N}(t|y(\mathbf{x};\mathbf{w}))$

E (w) = \frac{1}{2} \sum_{n} {(t_{n} - w^{T} ϕ (x_{n}))}^{2}

$E(\mathbf{w}) = \frac{1}{2}\sum_{n}\left(t_{n} - \mathbf{w}^{T}\phi(\mathbf{x}_{n}) \right)^{2}$

これは、よく知られている最小二乗誤差解をもたらします。現在、MLはノイズに敏感であり、特定の状況下では安定していません。MAPを使用すると、重みに制約を課すことで、より優れたソリューションを選択できます。たとえば、典型的なケースはリッジ回帰であり、重みをできるだけ小さくするように要求します。

E (w) = \frac{1}{2} \sum_{n} {(t_{n} - w^{T} ϕ (x_{n}))}^{2} + λ \sum_{k} w_{k}^{2}

$E(\mathbf{w}) = \frac{1}{2}\sum_{n}\left(t_{n} - \mathbf{w}^{T}\phi(\mathbf{x}_{n}) \right)^{2} + \lambda \sum_{k}w_{k}^{2}$

これは、重み事前ガウスを設定することと同じです。概して、推定される重みは $\mathcal{N}(\mathbf{w}|\mathbf{0},\lambda^{-1}\mathbf{I})$

w = {a r g m i n}_{w} p (w; λ) p (t | w; ϕ)

$\mathbf{w} = \mathbf{argmin}_{w}p(\mathbf{w};\lambda)p(t|\mathbf{w};\phi)$

MAPでは、重みはMLのようなパラメーターではなく、確率変数であることに注意してください。それでも、MLとMAPはどちらも点推定器です（最適な重みの分布ではなく、最適な重みのセットを返します）。

— jpmuc
ソース

+1こんにちは@juampa回答ありがとうございます:)しかし、より具体的な例を探しています:)

— jjepsuomi

もう一度@juampaに感謝します。次に、どのようにしてargminを最小化するを見つけますか？勾配、またはニュートン法などの反復アルゴリズムを使用していますか？

w

$w$

— jjepsuomi 2013

丁度。直接解決することもできますが（閉形式の解があります）、行列を反転する必要があります。そして、それが反復法を使用する理由です（特に、高次元の問題を扱う場合）。

O (n^{3})

$O(n^{3})$

— jpmuc 2013

最初の方程式はですか？

f (y) = {a r g m a x}_{x \in X} p (x) p (y | x)

$f(y) = \mathbf{argmax}_{\mathbf{x} \in X}p(\mathbf{x})p(\mathbf{y}|\mathbf{x})$

— Lerner Zhang