Naive Bayesは確率を特徴としています:単語を二重にカウントすべきですか?


12

私は自分のNaive Bayesのバッグo '単語モデルのプロトタイプを作成していますが、機能の確率の計算について質問がありました。

私は2つのクラスを持っているとしましょう、それは誰もが使用するものなので、私はただスパムと非スパムを使用します。そして、「バイアグラ」という言葉を例に取りましょう。トレーニングセットには10​​通のメールがあり、5通のスパムと5通の非スパムがあります。「viagra」は、5つのスパム文書すべてに表示されます。トレーニングドキュメントの1つで、3回表示されます(これが私の質問です)。これは、合計で7回表示されます。非スパムトレーニングセットでは、1回表示されます。

p(viagra | spam)を推定したい場合、それは単純です:

p(viagra | spam)= 5つのスパム文書にviagraが含まれる/合計5つのスパム文書= 1

言い換えれば、1つのドキュメントが1回ではなく3回バイアグラについて言及しているという事実は本当に重要ではないのでしょうか?


編集:ここに著者が私がちょうどレイアウトしたアプローチを使用するブログ投稿があります:http//ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/

そして、ここに著者が言うブログ投稿があります:p(viagra | spam)= 7 viagra spam言及/合計8言及 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -単純なベイズ分類器からドキュメント分類問題へ

そして、以下の答えの1つは、それがあるべきだと言っています:p(viagra | spam)= 7 viagra言及のスパム/スパムの合計用語数

これについて意見を述べるソースに誰でもリンクできますか?

回答:


4

言い換えれば、1つのドキュメントが1回ではなく3回バイアグラについて言及しているという事実は本当に重要ではないのでしょうか?

それは問題である。多項ナイーブベイズモデルに対し、考慮トークンの各発生をとるベルヌーイナイーブベイズモデルがない(すなわち、後者のモデルは、「バイアグラ」の3つの出現は、「バイアグラ」の1件の発生と同じです)。

以下に、2つの図と{1}の比較表を示します。

ここに画像の説明を入力してください

ここに画像の説明を入力してください

ここに画像の説明を入力してください

{1}は、テキスト分類のためのNaive Bayes、およびMultinomial Naive BayesモデルとBernoulli Naive Bayesモデルをきちんと導入しています。


参照:

  • {1}クリストファー・D・マニング、プラバカール・ラガヴァン、ヒンリッヒ・シュッツェ。「情報検索の概要。」2009年、第13章テキスト分類とNaive Bayes

1

適用する特定の素朴なモデルによって異なります。一般に、テキスト分類では用語の繰り返しを検討する必要があるため、答えはイエスです。

もう1つのポイントは、ドキュメントイベントスペースに基づく確率を考慮しているということです。用語スペースに基づいてそれを行うこともできます。

p(viagra | spam)=クラスspamのスパム用語の5倍/ classの50用語

この[論文](http://echo.edres.org:8080/betsy/mccallum1.pdf)には多くの情報があります


0

それは、p(viagra | spam)の正確な意味と、データのモデリング方法に依存すると思います。

書かれているように、私はあなたの意味を「このメッセージがスパムであるという条件で、メッセージで少なくとも一度バイアグラという言葉が言及される確率」と解釈します。その場合、はい、ある文書がバイアグラを3回言及したという事実は効果がありません。そのような事実に注意を払わないモデルを定義しました。

もちろん、別のモデルを使用することもできます。たとえば、バイアグラがバイナリ変数(present / absent)で表される代わりに、メッセージに単語が出現する回数のカウントを表すことができます。その場合、生データから次のような経験的頻度を推定します

p(viagra = 0 | spam)= 0

p(viagra = 1 | spam)= 4/5

p(viagra = 2 | spam)= 0

p(viagra = 3 | spam)= 1/5

それがより良い方法だと言っているのではありません。私は、バイアグラが3回言及されているのを見ることが関連するホールドであるというあなたの直観を別の状況で示しているだけです。

より実用的な例は、「用語頻度-逆文書頻度」です。これは、文書内の単語の頻度に多くの注意を払う方法です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.