私は自分のNaive Bayesのバッグo '単語モデルのプロトタイプを作成していますが、機能の確率の計算について質問がありました。
私は2つのクラスを持っているとしましょう、それは誰もが使用するものなので、私はただスパムと非スパムを使用します。そして、「バイアグラ」という言葉を例に取りましょう。トレーニングセットには10通のメールがあり、5通のスパムと5通の非スパムがあります。「viagra」は、5つのスパム文書すべてに表示されます。トレーニングドキュメントの1つで、3回表示されます(これが私の質問です)。これは、合計で7回表示されます。非スパムトレーニングセットでは、1回表示されます。
p(viagra | spam)を推定したい場合、それは単純です:
p(viagra | spam)= 5つのスパム文書にviagraが含まれる/合計5つのスパム文書= 1
言い換えれば、1つのドキュメントが1回ではなく3回バイアグラについて言及しているという事実は本当に重要ではないのでしょうか?
編集:ここに著者が私がちょうどレイアウトしたアプローチを使用するブログ投稿があります:http: //ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
そして、ここに著者が言うブログ投稿があります:p(viagra | spam)= 7 viagra spam言及/合計8言及 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -単純なベイズ分類器からドキュメント分類問題へ
そして、以下の答えの1つは、それがあるべきだと言っています:p(viagra | spam)= 7 viagra言及のスパム/スパムの合計用語数
これについて意見を述べるソースに誰でもリンクできますか?