まず最初に、肯定的な証拠だけでなく否定的な証拠もあります。電子メールメッセージがスパムである可能性が高くなる単語もあれば、本物である可能性が非常に高い単語もあります。他の言葉は、その不在によってメッセージがスパムである可能性を非常に高くしますが、他の言葉は反対の効果を持っています。たとえば、生きているショウジョウバエを研究していて、彼らについて同僚と頻繁に連絡している場合、その用語の存在はほとんどパスワードのようです。マスメールキャンペーンでは、テキストをあなたの習慣にうまくカスタマイズできないためです。そもそもスパムを実行可能にする規模の経済を破壊します。
また、フィルターのパフォーマンスは、1つのメトリックだけでは測定できません。すべてを単にスパムとして分類すれば、スパムの検出は非常に簡単で、実に取るに足らないことですが、誤検出(実際のメールをスパムとして検出)は許容できないほど高くなります。何も検出しないとその問題は解決しますが、偽陰性(悪いサンプルを良いものとして分類する)はあなたの人生を悲惨なものにします。優れたフィルターは、両方のカウントで優れた値に到達する必要があるため、何かの超高感度検出器よりもはるかに複雑になります。
したがって、最初から「悪い単語のリスト」が1つだけでなく、少なくとも4つのリストがあり、基準が1つだけではなく、少なくとも2つあります。これまでのところ、ベイジアンフィルタリングは、これをうまく行う最も簡単な方法です。良いものを見つけたら、ぜひ聞いてみよう。