回答:
なぜベイズ分類器を使用すると、達成可能な最高のパフォーマンスが得られるのですか?これの正式な証明/説明は何ですか?
通常、データセットは、データを生成する分布の iidサンプルで構成されると見なされます。次に、指定されたデータから予測モデルを構築します。サンプルを指定すると、クラスを予測しますが、サンプルの実際のクラスはです。
ただし、理論的には、1つの特定のモデルを選択せず、すべての可能なモデルを一度に検討して、何らかの方法で1つの大きなモデル組み合わせることができます。。
もちろん、データが与えられると、小さなモデルの多くはほとんど起こりえないか、不適切になる可能性があります(たとえば、データセットターゲットの値が複数ある場合でも、ターゲットの値を1つだけ予測するモデル)。
いずれの場合も、 s と同じ分布からされた新しいサンプルのターゲット値を予測する必要があります。モデルのパフォーマンスの良い尺度は、
つまり、予測する確率ランダムにサンプリングされた真のターゲット値。
ベイズの公式を使用すると、データ与えられた場合、新しいサンプルがターゲット値持つ確率を計算できます。
したがって、ほとんどの場合、を取得/推定することは非常に困難です。
次に、最適ベイズ分類器に進みます。与えられた、値
これはすべての可能なターゲット値中で最も可能性の高い値であるため、最適ベイズ分類器はパフォーマンス測定最大化します。
常にベイズ分類器をベンチマークとして使用して、他のすべての分類器のパフォーマンスを比較します。
おそらく、ベイズ分類器の単純なバージョンを使用しています。実装は簡単で、ほとんどの場合、かなりうまく機能しますが、計算するのは単純な推定だけです。
分類子の成功率に関するパフォーマンスは、真のクラスが予測されたクラスと等しい確率に関連しています。
この確率は、特徴ベクトル(またはが離散の場合は合計)のすべての可能な状況での積分と、それらの正しく分類するための条件付き確率として表すことができます。
ここで、は、特徴ベクトル確率密度です。
機能可能なセットについて、分類子がその機能のセットに対して最も可能性の高いクラスを選択しない場合、それを改善できます。
ベイズ分類器は常に、特徴セットごとに最も可能性の高いクラスを選択します(項が最大です)。したがって、少なくとも特徴基づいて改善することはできません。