7
Naive Bayesでは、テストセットに未知の単語があるのに、なぜラプラススムージングに悩まされるのですか?
今日は、単純ベイズ分類について読んでいた。追加のスムージングを使用したパラメーター推定の見出しの下で読みました: してみましょう(例えば正または負など)クラスを参照してください、としましょうトークンまたは単語を参照してください。cccwww の最尤推定量は、P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. この推定は、未知の単語を含むドキュメントに対して確率を与えるため、問題になる可能性があります。この問題を解決する一般的な方法は、ラプラス平滑化を使用することです。P(w|c)P(w|c)P(w|c)000 Vをトレーニングセット内の単語セットとし、単語セットに新しい要素(不明)を追加します。UNKUNKUNK 定義P(w | c )= カウント(w 、c )+ 1カウント(c )+ | V| +1、P(w|c)=カウント(w、c)+1カウント(c)+|V|+1、P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + …