ベイズリスクを理解する

9

推定量を評価する場合、おそらく最も一般的に使用される2つの基準は、最大リスクとベイズリスクです。私の質問は後者についてです：

以前のベイズリスク $\pi$ は次のように定義されます。

B_{π} (\hat{θ}) = \int R (θ, \hat{θ}) π (θ) d θ

$B_{\pi} (\hat{\theta}) = \int R(\theta, \hat{\theta} ) \pi ( \theta ) d \theta$

以前のが何をしているか、そしてそれをどのように解釈すべきか、私にはまったくわかりません。リスク関数あり、それをプロットする場合、直感的には、その領域を基準として、考えられるすべての値に対するリスクが「強い」かどうかを判断します。しかし、それは近いものの、以前のものを含むことは、この直観を再び破壊します。誰かが前のものを解釈する方法を手伝ってくれる？ $\pi$ $R(\theta, \hat{\theta} )$ $\theta$

bayesian decision-theory

— ピーターシリーズ
ソース

1

いくつかのパラメーターを検討するとき、リスク関数の直感的なプロットがどのようにできるかを理解できません。その設定では、関数は交差し、「最良の」推定量を識別しません。ベイズリスクは、推定量ごとに 1つの数値を返すため、すべての推定量のランキングが可能になります。

— 西安

11

[ここに、私自身の教科書、The Bayesian Choice（2007）からの抜粋があり、ベイズ分析への意思決定理論的アプローチを支持しているため、ベイズリスクを使用することを主張しています。]

最も平凡な設定を除いて、（ $d$ ）損失関数 $\text{L}(\theta,d)$ いつ $\theta$ 不明です。損失関数から効果的な比較基準を導き出すために、頻度主義アプローチは、代わりに平均損失（または頻度主義リスク）を考慮することを提案します

\begin{array}{rcl} R （ θ 、 δ ） & = & E_{θ} [L （ θ 、 δ （ バツ ） ）] \\ = & \int_{バツ} L （ θ 、 δ （ バツ ） ） f （ バツ | θ ） d バツ 、 \end{array}

$\begin{eqnarray*} R(\theta,\delta) & = & \mathbb{E}_\theta \lbrack \text{L} (\theta ,\delta(x))\rbrack \\ & = & \int_{\cal X} \text{L}(\theta,\delta(x))f(x|\theta) \,dx , \end{eqnarray*}$ どこ

δ (x)

$\delta(x)$ 決定ルール、つまり各結果への決定の割り当て

x \sim f (x | θ)

$x\sim f(x|\theta)$ ランダム実験から。

関数 $\delta$ 、から ${\mathcal X}$ に $\mathfrak{D}$ 、通常はestimatorと呼ばれます（値 $\delta(x)$ の推定と呼ばれています $\theta$ ）。混乱のリスクがない場合は、推定器のセットも $\mathfrak{D}$ 。

frequentistパラダイムは、可能であれば推論は推定量は、パラメータのすべての可能な値のための彼らの長期的なパフォーマンスで評価されているということで、最良の推定量を選択するために、推定量を比較するには、この基準に依存し、 $\theta$ 。ただし、このアプローチにはいくつかの困難があることに注意してください。

エラー（損失）は、 $x$ 密度に比例 $f(x|\theta)$ 。したがって、観察は $x$ これ以上考慮されません。リスク基準は、所定の観察に対して直接ではなく、長期的なパフォーマンスに関する手順を評価します。 $x$ 。そのような評価は統計家にとって満足のいくものかもしれませんが、彼女のデータに最適な結果を望んでいるクライアントにとってはそれほど魅力的ではありません。 $x$ 、他人のものではありません！
決定問題の頻度分析は、頻度評価が意味をなすために、この問題が何度も満たされることを暗黙的に想定しています。確かに、 $R(\theta,\delta)$ 大きな数の法則によると、ほぼ同じ実験のiid反復における平均損失です。しかし、哲学的および実用的な理由の両方で、実験の再現性という概念そのものについては多くの論争があります（Jeffreys（1961）を参照）。一つには、統計学者に新しい観察が来た場合、彼女はそれらを利用するべきであり、これは、例えば、医学的試験におけるように、実験が行われる方法を変更する可能性があります。
手順について $\delta$ 、リスク $R(\theta, \delta)$ パラメータの関数です $\theta$ 。したがって、頻度主義的アプローチは、一連の手順の全体的な順序付けを誘発しません。2つの交差リスク関数は対応する推定量間の比較を妨げるため、この手順を決定基準と比較することは一般に不可能です。せいぜい、手順を望むかもしれません $\delta_0$ 均一に最小化 $R(\theta,\delta)$ しかし、決定手続きのスペースが制限されていない限り、このようなケースはめったに起こりません。最良の手順は、許可された手順のセットを人為的に制限することによってのみ取得できます。

例2.4-検討する $x_1$ そして $x_2$ 、からの2つの観測

P_{θ} （ バツ = θ - 1 ） = P_{θ} （ バツ = θ + 1 ） = 0.5 、 θ \in R 。

$P_{\theta}(x = \theta-1) = P_{\theta}(x = \theta+1) = 0.5, \qquad \theta\in\mathbb{R}.$ 関心のあるパラメータは

θ

$\theta$ （つまり、

D = Θ

$\mathfrak{D} = \Theta$ ）そしてそれは推定量によって推定されます

δ

$\delta$ 損失の下で

L （ θ 、 δ ） = 1 - 私_{θ} （ δ ） 、

$\text{L}(\theta,\delta) = 1-\mathbb{I}_{\theta}(\delta),$ しばしば呼ばれる

0 - 1

$0-1$ 損失、その大きさに関わらず、推定のエラーにペナルティを課す

1

$1$ 。特定の\ estを考慮する

δ_{0} （ {バツ}_{1} 、 {バツ}_{2} ） = \frac{{バツ}_{1} + {バツ}_{2}}{2} 、

$\delta_0(x_1,x_2) = {x_1+x_2 \over 2},$ そのリスク関数は

\begin{array}{rcl} R (θ, δ_{0}) & = & 1 - P_{θ} (δ_{0} (x_{1}, x_{2}) = θ) \\ = & 1 - P_{θ} (x_{1} \neq x_{2}) = 0.5. \end{array}

$\begin{eqnarray*} R(\theta,\delta_0) & = & 1-P_{\theta}(\delta_0(x_1,x_2) = \theta) \\ & = & 1-P_{\theta}(x_1 \ne x_2) = 0.5. \end{eqnarray*}$ この計算は、推定器が

δ_{0}

$\delta_0$ 時間の半分は正しいです。実際、この推定量は常に正しい

x_{1} \neq x_{2}

$x_1\ne x_2$ 、それ以外の場合は常に間違っています。今、\ est \

δ_{1} (x_{1}, x_{2}) = x_{1} + 1

$\delta_1(x_1,x_2) = x_1+1$ に等しいリスク関数も持っています

0.5

$0.5$ 、同様に

δ_{2} (x_{1}, x_{2}) = x_{2} - 1

$\delta_2(x_1,x_2) = x_2-1$ 。したがって、

δ_{0}

$\delta_0$ 、

δ_{1}

$\delta_1$ そして

δ_{2}

$\delta_2$ の下にランク付けすることはできません

0 - 1

$0-1$ 損失。

▸

$\blacktriangleright$

それどころか、決定理論へのベイズのアプローチは、空間に統合されます $\Theta$ 以来 $\theta$ 空間に統合する代わりに、不明です ${\cal X}$ なので $x$ 知られている。事後予想損失に依存している

\begin{array}{rcl} ρ (π, d | x) & = & E^{π} [L (θ, d) | x] \\ = & \int_{Θ} L (θ, d) π (θ | x) d θ, \end{array}

$\begin{eqnarray*} \rho(\pi,d|x) & = & \mathbb{E}^\pi[L(\theta,d)|x] \\ & = & \int_{\Theta} \text{L}(\theta,d) \pi(\theta|x)\, d\theta, \end{eqnarray*}$ これは、パラメーターの事後分布に従ってエラー（つまり、損失）を平均化します。

θ

$\theta$ 、観測値に条件付きで}

x

$x$ 。与えられた

x

$x$ 、決定から生じる平均誤差

d

$d$ 実際に

ρ (π, d | x)

$\rho(\pi,d|x)$ 。したがって、事後予想損失は、

x

$x$ しかし、この依存性は、パラメータに対するリスクの頻繁な依存性とは対照的に、問題ではありません。

x

$x$ 、に反して

θ

$\theta$ 、知られている。

— 西安
ソース

2

あなたはクリスチャン・ロバートです。ジョージカゼッラに会いました。私が知っている彼と一緒に本を出版したと思います...

— Michael R. Chernick

1

+1の回答はそれよりもはるかに良くなるわけではありません-ところで素晴らしい本

— Xavier Bourret Sicotte

3

James O. Bergerによる古典的な統計的意思決定理論の引用：

[...]決定ルールはリスク関数の観点から評価されるとすでに述べています $R(\theta, \delta)$ 。[...]前に指摘したように、問題は、許容できる決定ルールが異なると、リスクが異なるため $\theta$ の。救助に先立つ $\pi(\theta)$ 、それはおそらくどちらを反映しているか $\theta$ が発生する可能性が最も高いものです。「重量」はとても合理的だ $R(\theta, \delta)$ 沿って $\pi(\theta)$ そして平均。

はい、評価できます $R(\theta, \delta)$ それぞれに $\theta$ 、しかしその後、あなたは暗黙のうちに $\theta$ 同様に可能性があります。ベイジアンシナリオでは、事前に選択します $\pi(\theta)$ 異なる観測の確率を反映する $\theta$ のような情報が含まれています。

— ティム
ソース