MAPは解

10

これらのスライド（スライド＃16および＃17）は、オンラインコースの1つで見つけました。インストラクターは、最大事後推定値（MAP）が実際にどのようにソリューションであるかを説明しようとしました。ここで、は真のパラメータ。 $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ $\theta^{*}$

誰かがこれがどのように続くか説明できますか？

編集：リンクが壊れた場合に備えて、スライドを追加しました。

— Honeybadger
ソース

3

共有したスライドを見ると、MAP推定を使用して、平均、モード、中央値など、事後のさまざまなプロパティを推定する方法を説明することが考えられます。これについては、Stephen M. Kayの著書「Fundamentals of Statistical Signal Processing」で紹介されている一般的なベイジアン推定量のコンテキストで説明します。

パラメータ推定に関連する3種類のリスク（つまり、コスト関数）を検討することから始めましょう。 $\theta$

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ ; それ以外の場合 $C(e)=1$

ここで、、ここでは推定値、は真のパラメーターです。ベイズ推定では、目的は予想されるリスクを最小限に抑えることです。 $e = \theta - \hat{\theta}$ $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

ここではのみを考慮しているため、内側の積分注目します。 $\theta$ $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$

ここで、選択したに応じて、推定器は事後の異なるプロパティを提供します。例えば、我々は最初のケースを選択した場合、、最小化のための、平均値です。あなたはインジケーター関数に関する質問なので、上記の3番目のリスクに対処します（について考えれば、同等ですインジケータを使用する）。 $C(e)$ $C(e) = e^2$ $\theta$ $\int_\theta C(e)p(\theta|X)d\theta$ $I[\hat{\theta}\ne \theta]$ $\delta\rightarrow 0$

上記のケース3の場合：

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

が事後のモードに対応する場合、は最小化されます。 $\delta \rightarrow 0$ $\hat{\theta}$

— idnavid
ソース

2

素晴らしい説明ありがとうございます。また、将来の読者も同様の教科書で同じことを読むことができます：Kevin MurphyによるMachine_Learning確率論的視点の第5章

— honeybadger

この制限引数の詳細をで指定できますか？がゼロになるときの手順の限界、または事後損失の限界を意味しますか？

δ

$\delta$

δ

$\delta$

— 西安

期待の限界について言及しています。

E [C (e)]

$E[C(e)]$

— idnavid 2018年

10

特定のケースでは、パラメータ空間は有限または可算無限インジケーター損失に関連する事後損失は、誤った確率等しいそして、正しいである事後確率が最大化されると、最小化されます。つまり、は事後分布またはMAPのモードです。 $\Theta$

Θ = {θ_{1}, θ_{2}, \dots}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

ただし、このMAPと損失の関連付けは、ほとんどの設定では正しくないという点で「民俗定理」です。つまり、はすべてのあり、さらにMAPは最終的には支配的な測定の選択に依存することを指摘しているDruihletおよびMarin（BA、2007）の結果とさらに競合します。（ただし、ルベーグ測度は暗黙的にデフォルトとして選択されています。） $0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

たとえば、EvansとJang は2011年にarXivの論文を投稿し、 MAP、最小相対驚き（または最大プロファイル尤度）推定量、および損失関数の間の関係について議論しています。問題の核心は、MAP推定器もMLEも、少なくとも連続パラメーター空間では、意思決定理論的アプローチによって実際に正当化されないことです。そして、2007年にDruihletとMarinが2007年に実証したように、パラメーター空間で[任意に]選択された支配的な尺度がMAPの値に影響を与えます。これらは、損失関数

L (θ, d) = I {Ψ (θ) \neq d) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$ ここで、彼らは、変換Ψ（θ）のdによる推定を考慮します。この変換では、事前限界によって逆重み付けされます。恒等変換の特殊なケースでは、この損失関数はベイズ推定器としてのMLEにつながります。一般的なケースでは、ベイズ推定量は最大プロファイル尤度推定量（LRSE）です。ただし、この損失関数は、数え切れないほどの無限の（そして明らかに連続的な）パラメーター空間に一般化されていません。そのような設定では、著者はベイズ手順の制限としてLRSEのみを提供できます。可算ケースで採用される損失関数は、たとえば、

L (θ, d) = I {Ψ (θ) \neq d} / max {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$ 境界がゼロに減少します。継続的なケースでは、インジケーターは機能しなくなります。したがって、著者らの選択は、直径λがゼロになるボールのパーティションの特定の選択によって空間Ψ（Θ）を離散化することです。DruihletとMarinの精神では、この選択はメトリック（およびさらに規則性の条件）に依存します。さらに、LRSE自体がは、密度を選択するバージョンに依存します（支配的なメジャーではない場合）。ベイズの等式いたるところに and

max_{ψ} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = f (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

f (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} f (x | θ) π (θ) d θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int f (x | θ) π (θ) d θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$ は、Savage-Dickeyパラドックスペーパーの精神に基づいています。

Robert BassettとJulio Derideは、ベイズ決定理論におけるMAPの位置付けについて議論する2016年の論文を発表しました。

「…私たちは、MAP推定量が0〜1の損失を持つベイズ推定量の制限として一般に受け入れられている概念の反例を提供します。」

著者は私の本「ベイジアンチョイス」に言及し、さらなる予防策なしにこの特性を述べ、私はこの点に関して不注意であることに完全に同意します！マキシマイザーの限界が必ずしも限界のマキシマイザーであるとは限らないという難しさがあります。この論文には、パラメータに依存しないサンプリング分布に関連付けられた、上記の事前のこの効果の例が含まれています。そこで提案されている十分な条件は、事後密度がほぼ確実に適切または準凹面であることです。

かなり人工的なものではありますが、別のタイプの損失関数の下での適切なベイズ推定量としてのバーガーとルッカによるMAP推定量の代替特性も参照してください。このアーカイブされた論文の著者は、以前に基づいた距離から始めます。ブレグマン距離と呼ばれます。これは、前のものに応じて2次距離またはエントロピー距離になります。このブレグマン距離と2次距離の混合である損失関数の定義

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ ベイズ推定量としてMAPを生成します。支配的な測定についてはまだ疑問に思われるかもしれませんが、損失関数と結果の推定量はどちらも、支配的な測定の選択に明らかに依存しています…（損失は以前の測定に依存しますが、これ自体は欠点ではありません）。

— 西安
ソース

1

この問題については、第5章「ベイジアン統計、機械学習：確率論的観点-マーフィー」で言及したテキストの要約を示します。

データを観察したとしましょう。パラメータの事後分布についてコメントします。現在、MAPとして広く知られているこの事後分布のモードの点推定には、いくつかの欠点があります。 $X$ $p(\theta|X)$

平均または中央値とは異なり、これは推定されている間、他のすべてのポイントを考慮しないという意味で、「非典型的な」ポイントです。平均/中央値を推定する場合、他のすべての点を考慮に入れます。

そのため、予想どおり、高度に歪んだ事後分布では、MAP（ひいてはMLE）は実際には事後分布を実際には表していません。

では、平均/中央値/モードなどの点推定を使用して事後をどのように要約するのでしょうか。

これは人々が決定理論を使用する場所です-本質的に損失関数は、真がでが私たちの推定である場合に被る損失です。さまざまな損失関数を選択できます。ここでの目的は、損失関数の期待値を最小化することです。 $L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

損失関数がとして設定されている場合、インジケーター関数は、真実を推定し、損失関数wrtの期待値を最小化することは、この関数 wrtを最大化することと同じです。このことから、事後モードが損失関数の期待値を最小化すると推測するのは直感的です。この計算の詳細は、上記の回答で確認できます。 $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$

— Honeybadger
ソース