ML推定器の不変性プロパティは、ベイジアンの観点から無意味ですか？

CasellaとBergerは、ML推定量の不変性を次のように述べています。

しかし、彼らは「可能性」を完全にアドホックで無意味な方法で定義しているように思えます。 $\eta$

私は、単純なケースwheterに確率論の基本的なルールを適用した場合、私の代わりに、次を得る： $\eta=\tau(\theta)=\theta^2$ 今、ベイズの定理を適用すること、およびその後、事実と、我々は和ルール適用できることを相互に排他的でとてもある：

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$

A

$A$

B

$B$

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

$\eta$ $\eta$

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

ベイズは再び攻撃しますか？Casella＆Bergerは間違っていますか？それとも私は間違っていますか？

— ユーザー56834
ソース

最尤推定量の不変性プロパティの

— Sextus Empiricus

$\eta=\tau(\theta)=\theta^2$

Programmer2134（＆@MartijnWeterings）、あなたの不満を理解しています。ただし、コメントでは口調に注意してください。生産的な会話は、私たちのbe niceポリシーが守られている場合にのみ可能です。生産的な会話を追求することに興味がない場合は、これらの質問を他の場所に投稿する必要があります。

— ガン-モニカの復活

@gung、あなたは完全に正しいです。そして、そのトーンに反応したことを後悔しています。これからはやめます。申し訳ありません。会話については、生産的なものを追求することに興味がありますが、私が尋ねたいくつかの質問に対する人々の反応はほとんど逆効果であると感じました。それでも、次回は違う反応をします。

— user56834

ありがとうございました。人々が誠実に対応していると想定するのが最善です。ここにいる人がいない（比較的少ない、私見の）機会はありますが、それでも、時々彼らは周りに来るように心を落ち着かせることができます。

— ガン-モニカの回復

回答:

西安が言うように、問題は根拠のないものですが、それでも多くの人々は、いくつかの文献やインターネットに出てきた声明のために、ベイジアンの観点から最尤推定値を検討するように導かれていると思います： " 最尤推定は、事前分布が均一である場合のベイジアン最大事後推定の特定のケースです。

ベイジアンの観点からは、最尤推定量とその不変性特性は理にかなっていますが、ベイジアン理論における推定量の役割と意味は、頻度主義理論とは大きく異なります。そして、この特定の推定量は、通常、ベイジアンの観点からはあまり賢明ではありません。これが理由です。簡単にするために、1次元のパラメーターと1対1の変換について考えてみましょう。

まず最初に、2つの備考：

$T=273.16$ $t=0.01$ $\theta=32.01$ $\eta=5.61$
$\mathrm{p}(x)\,\mathrm{d}x$
$x$

$\Delta x$ $\mathrm{p}(x)\,\Delta x$ $x$
$\mathrm{d}x$

$\mathrm{p}(x_1) > \mathrm{p}(x_2)$ $x_1$ $x_2$ $x$ $x_1$ $x_2$

$x$ $\tilde{x}$ $D$

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$

$D$

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$

理想的には、完全な確率分布指定して不確実性を報告する必要があります $\mathrm{p}(x \mid D)\,\mathrm{d}x$

$(P_0,P)\mapsto G(P_0; P)$ $P_0$ $P$ $(x_0,x)\mapsto G_x(x_0; x)$ $(y_0,y)\mapsto G_y(y_0; y)$ $y=f(x)$ $G_x(x_0;x) = G_y[f(x_0); f(x)]$

たとえば、二次効用関数について話すとき、特定の座標系、通常はパラメーターの自然な座標系を暗黙的に選択したことをすぐに強調しておきます。別の座標系では、効用関数の式は一般に2次ではありませんが、パラメーター多様体上の効用関数と同じです。

$\hat{P}$ $G$ $D$ $x$

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$

y = f (x)

$y=f(x)$

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$

G

$G$

この種の不変性は、ベイズ推定器の組み込みプロパティであることがわかります。

今、私たちは尋ねることができます：最尤法に等しい推定量につながる効用関数はありますか？最尤推定量は不変なので、このような関数が存在する可能性があります。それがあった場合にこのような観点からは、最尤は、ビューのベイズポイントから無意味だろうではない不変！

$x$ $G_x(x_0; x) = \delta(x_0-x)$ $\eqref{UF}$ $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ $\eqref{PD}$ $x$ $\eqref{ML}$ $G_x(x_0; x) = 1$ $\lvert x_0-x \rvert<\epsilon$ $G_x(x_0; x) = 0$ $\epsilon\to 0$

したがって、そうです。数学的に寛大で、一般化された関数を受け入れる場合、最尤推定量とその不変性は、ベイジアンの観点から理解できます。しかし、ベイジアンの観点における推定量のまさにその意味、役割、および使用法は、頻度主義の観点におけるものとは完全に異なります。

また、上記で定義された効用関数が数学的に意味があるかどうかについて、文献に予約があるように思われることも付け加えておきます[5]。いずれにせよ、そのような効用関数の有用性はかなり制限されています。Jaynes[3]が指摘するように、それは「正確であることの可能性のみを気にします。間違っている場合は気にしません」どれだけ間違っているのか」

$y=f(x)$
$G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$
$y$
$y$
$y$

したがって、上記のステートメントは暗黙的に特別な座標系を想定しています。暫定的でより明示的なステートメントは次のようになります。「最尤推定量は、一部の座標系でデルタ効用関数と均一事前分布を持つベイズ推定量と数値的に等しい」。

最後のコメント
上記の議論は非公式ですが、測度理論とStieltjes統合を使用して正確にすることができます。

ベイジアン文献では、より非公式な推定量の概念を見つけることもできます。これは、特に完全密度を指定することが不便または不可能な場合に、確率分布を「要約」する数です $\mathrm{p}(x \mid D)\,\mathrm{d}x$

[1]たとえば、H。Raiffa、R。Schlaifer：Applied Statistical Decision Theory（Wiley 2000）。
[2] Y. Choquet-Bruhat、C。DeWitt-Morette、M。Dillard-Bleick：分析、多様体および物理学。パートI：基本（Elsevier 1996）、または微分幾何学に関するその他の優れた本。
[3] ETジェインズ：確率論：科学の論理（ケンブリッジ大学出版2003）、§13.10。
[4] J.-M. ベルナルド、AFスミス：ベイジアン理論（Wiley 2000）、§5.1.5。
[5] IHジャーミン：多様体の不変ベイズ推定 https://doi.org/10.1214/009053604000001273 ; R.バセット、J。デライド：ベイズ推定量の限界としての最大事後推定量 https://doi.org/10.1007/s10107-018-1241-0。
[6] KPマーフィー：機械学習：確率論的展望（MIT Press 2012）、特にchap。5.
[7] DJC MacKay：情報理論、推論、および学習アルゴリズム（Cambridge University Press 2003）、http：//www.inference.phy.cam.ac.uk/mackay/itila/。

— pglpm
ソース

上記の意味で、たとえば2つの密度間のカルバックライブラーダイバージェンスなどの関数損失関数を作成することにより、不変ベイズ推定器を定義する方法が存在します。私は1996年の論文でこれらの損失を本質的損失と呼んだ。

— 西安

p (x | θ = - \sqrt{η} \lor θ = \sqrt{η})

$p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)$

θ

$\theta$ rightwrong

— 西安
ソース

これは私が言っていることとどのように矛盾していますか？私のポイントは、それがベイズの観点からは無意味であるということでした。カゼッラとバーガーのソリューションで私が抱えている問題は、基本的に、望ましい結論に達するような方法で、まったく新しいアドホックな可能性の定義を考え出すことです。可能性の一貫した定義、つまり上記で示したものを作成すると、結論は異なります。もちろん、CasellaとBergerは事前確率の持ち込みを避けたいと思うかもしれませんが、そうする唯一の方法は、可能性の定義をその場で変更することです。

— user56834

ベイジアンの視点を維持したい場合は、ほとんどの非ベイジアンの結果が意味をなさないか、ベイジアンの原則と「整合性がある」とは言えないため、問題は疑わしいものです。

— 西安