Naive BayesはSVMよりも優れたパフォーマンスを発揮しますか?


17

私が探していた小さなテキスト分類の問題で、Naive BayesはSVMと同等以上のパフォーマンスを示しており、非常に混乱していました。

あるアルゴリズムが他のアルゴリズムよりも勝つことを決定する要因は何かと思いまして。SVMでNaive Bayesを使用しても意味がない状況はありますか?誰かがこれに光を当てることができますか?


回答:


27

特定のデータセットに最適な分類方法がどれであるかについての単一の答えはありません。特定のデータセットの比較研究では、常に異なる種類の分類子を考慮する必要があります。データセットのプロパティを考えると、いくつかの方法を優先する手がかりがあるかもしれません。ただし、可能であれば、すべてを試すことをお勧めします。

Naive Bayes Classifier(NBC)とSupport Vector Machine(SVM)には、それぞれのカーネル関数の選択など、さまざまなオプションがあります。これらは両方ともパラメータの最適化に敏感です(つまり、異なるパラメータを選択すると、出力が大幅に変わる可能性があります)。そのため、NBCのパフォーマンスがSVMよりも優れていることを示す結果がある場合。これは、選択したパラメーターにのみ当てはまります。ただし、別のパラメーターを選択すると、SVMのパフォーマンスが向上する場合があります。

一般に、NBCの独立性の仮定がデータセットの変数によって満たされ、クラスのオーバーラップの程度が小さい(つまり、潜在的な線形決定境界)場合、NBCは良好に達成されると予想されます。たとえば、ラッパー機能選択を使用した最適化により、一部のデータセットでは、NBCが他の分類子を無効にする場合があります。たとえ同等のパフォーマンスを達成したとしても、NBCは高速であるため、より望ましいでしょう。

要約すると、あるコンテキストで他のクラスを上回る場合、別のクラスでは重大な失敗を招く可能性があるため、分類方法を好むべきではありません。(これはデータマイニングの問題では普通です)。


7
(+1)無料の昼食定理とも呼ばれます。ただし、パラメータの感度の比較には完全には同意しませんが(シングルデシジョンツリーは最も感度の高いアプローチの1つです)。
ステフェン

@steffen、貴重なコメントをありがとう。モデルを最適化するにはさまざまな方法があり、どの場合でもどのモデルがより敏感であるかを一般化することはできません。機能選択については、DTはおそらくNBCよりも感度が低いかもしれませんが、一般的にはそうではないかもしれません。回答を編集してコメントを検討し、必要に応じて編集することもできます。本当にありがとう :)。
-soufanom

3
パラメーターの感度に関するコメントの+1。また、SVMを支える理論の多くは固定カーネルのモデルに適用されるため、ハイパーパラメーター(これ慎重に行う必要あります)を最適化しようとするとすぐに、理論的根拠の多くがもはや適用されないことにも注意してください。
ディクラン有袋類
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.