単純ベイズ分類器が0-1損失に最適なのはなぜですか？

Naive Bayes分類器は、クラスメンバーシップの事後の最大化に基づいてアイテム $x$ をクラス割り当て、アイテムの特徴が独立していると仮定する分類器です。 $C$ $P(C|x)$

0-1の損失は、分類ミスに「1」の損失を割り当て、正しい分類に「0」の損失を割り当てる損失です。

私はよく（1）「単純ベイズ」分類器が0-1の損失に最適であることを読みました。なぜこれが本当ですか？

「「単純ベイズ」分類子は、0-1損失に最適であるとよく読みます」というステートメントの参照を提供できますか？同様に、過去にこのタイプのステートメントをどこで読んだことがありますか

— ジョン

編集され、exemplatoryソースを追加

実際、これは非常に単純です。ベイズ分類器は、事後発生確率が最大のクラス（いわゆる最大事後推定）を選択します。0-1損失関数不利の誤分類は、それが正しい分類の最大数を有する溶液に最小の損失を割り当てるすなわちしたがって、両方のケースで、モードの推定について話しています。モードはデータセットで最も一般的な値、または最も可能性の高い値であるため、事後確率の最大化と0-1損失の最小化の両方がモードの推定につながることを思い出してください。

正式な証明が必要な場合は、アンジェラJ.ユーによるベイジアン決定理論の概要の論文で説明されています。

0-1バイナリ損失関数の形式は次のとおりです。

$l_{x} (\hat{s}, s^{*}) = 1 - δ_{\hat{s} s^{*}} = {\begin{cases} 1 & if \hat{s} \neq s^{*} \\ 0 & otherwise \end{cases}$ $l_\boldsymbol{x}(\hat s, s^*) = 1 - \delta_{\hat ss^*} = \begin{cases} 1 & \text{if} \quad \hat s \ne s^* \\ 0 & \text{otherwise} \end{cases}$
ここで、はクロネッカーデルタ関数です。（...）予想される損失： $\delta$

$\begin{aligned} L_{x} (\hat{s}) & = \sum_{s^{*}} l_{x} (\hat{s}, s^{*}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} (1 - δ_{\hat{s} s^{*}}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} P (s = s^{*} ∣ x) d s^{*} - \sum_{s^{*}} δ_{\hat{s} s^{*}} P (s = s^{*} ∣ x) \\ = 1 - P (s = s^{*} ∣ x) \end{aligned}$ $\begin{align} \mathcal{L}_\boldsymbol{x}(\hat s) &= \sum_{s^*} l_\boldsymbol{x}(\hat s, s^*) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} (1 - \delta_{\hat ss^*}) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} P(s = s^* \mid \boldsymbol{x}) ds^* - \sum_{s^*} \delta_{\hat ss^*} P(s = s^* \mid \boldsymbol{x}) \\ &= 1 - P(s = s^* \mid \boldsymbol{x}) \end{align}$

これは、一般的に事後推定の最大値に当てはまります。したがって、事後分布がわかっている場合、0-1の損失を仮定して、最適な分類ルールは事後分布のモードを取ることであり、これを最適ベイズ分類器と呼びます。実際には、通常、事後分布はわかりませんが、むしろ推定します。Naive Bayes分類器は、経験的分布を見て、予測子の独立性を仮定することにより、最適な分類器を近似します。したがって、単純ベイズ分類器自体は最適ではありませんが、最適なソリューションに近似します。あなたの質問では、これら2つのことを混同しているようです。

— ティム
ソース

私は理解していると思う：だから、正式な証明はLoss（action_1）= 1-P（action_2 | data）<---の線に沿ったものになるだろう。これを最小限に抑えたい。これを最小化することは、正しいクラスの前を最大化することと同じです（つまり、P（action_2 | data）を最大化します。しかし、混乱するのは、すべての分類子がこの点に関して最適ではない理由です。データサンプルをクラスに割り当てるため、常にデータサンプルをより高い事後のクラスに割り当てることを選択した場合、この最適性は自動的に

@TestGuestは、正式な証拠のために私の編集をチェックします。

— ティム

That is the most complicated formalism I have seen for such a proof:)) thank you however, I hope it helps others as well.