単純ベイズ分類器は、分類問題の一般的な選択肢です。これには、次のような多くの理由があります。
- 「Zeitgeist」-約10年前のスパムフィルターの成功後の広範な認識
- 書きやすい
- 分類子モデルの構築は高速です
- モデルを再構築することなく、新しいトレーニングデータでモデルを変更できます。
しかし、それらは「素朴」です-つまり、特徴が独立していると仮定します-これは、最大エントロピー分類器(計算が遅い)などの他の分類器とは対照的です。
独立性の仮定は通常仮定することができず、スパムフィルターの例を含む多くの(ほとんど?)場合、それは単に間違っています。
では、なぜ機能が互いに独立していない場合でも、Naive Bayes Classifierはそのようなアプリケーションで非常に優れたパフォーマンスを発揮するのでしょうか?