ベイズ分類器がスパムフィルタリングに使用されるのはなぜですか?


8

ベイジアンスパムフィルタリングについて読んでいて、理論は理解していると思いますが、メッセージに特定の単語が含まれている場合、メッセージがスパムである可能性を計算するためにこのアプローチが必要な理由がわかりません。

ユーザーによって「スパム」または「ハム」のいずれかに分類された一連のメッセージがあり、分類したい新しいメッセージ(選択した単語を含む)を受け取った場合、確実に行う必要があるのは、数を除算することだけです。単語を含むスパムメッセージの数、単語を含むメッセージの総数...なぜすべての方程式なのか?


3
これをCrossValidatedに投稿してください-回答を得る確率は高くなります。また、ベイジアンフィルターのしくみを知ることもできます
Ubermensch 2012年

2
「すべての方程式」… ベイズ分類器に含まれる方程式が1つだけあり、2番目の段落で述べたことをほぼ正確に形式化します(事前確率を考慮して正しく行うだけです)。
Konrad Rudolph

@Ubermensch -あなたが意味するかCrossValidatedを?* 8 ')
Mark Booth

回答:


15

まず最初に、肯定的な証拠だけでなく否定的な証拠もあります。電子メールメッセージがスパムである可能性が高くなる単語もあれば、本物である可能性が非常に高い単語もあります。他の言葉は、その不在によってメッセージがスパムである可能性を非常に高くしますが、他の言葉は反対の効果を持っています。たとえば、生きているショウジョウバエを研究していて、彼らについて同僚と頻繁に連絡している場合、その用語の存在はほとんどパスワードのようです。マスメールキャンペーンでは、テキストをあなたの習慣にうまくカスタマイズできないためです。そもそもスパムを実行可能にする規模の経済を破壊します。

また、フィルターのパフォーマンスは、1つのメトリックだけでは測定できません。すべてを単にスパムとして分類すれば、スパムの検出は非常に簡単で、実に取るに足らないことですが、誤検出(実際のメールをスパムとして検出)は許容できないほど高くなります。何も検出しないとその問題は解決しますが、偽陰性(悪いサンプルを良いものとして分類する)はあなたの人生を悲惨なものにします。優れたフィルターは、両方のカウントで優れた値に到達する必要があるため、何かの超高感度検出器よりもはるかに複雑になります。

したがって、最初から「悪い単語のリスト」が1つだけでなく、少なくとも4つのリストがあり、基準が1つだけではなく、少なくとも2つあります。これまでのところ、ベイジアンフィルタリングは、これをうまく行う最も簡単な方法です。良いものを見つけたら、ぜひ聞いてみよう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.