単純ベイズと多項式単純ベイズの違い


29

以前、単純ベイズ分類を扱ったことがあります。私は最近、多項ナイーブベイズについて読んでいます。

また、事後確率=(事前*尤度)/(証拠)

Naive BayesとMultinomial Naive Bayesの間で見つけた唯一の主な違い(これらの分類子のプログラミング中)は、

多項ナイーブベイズする可能性を算出し、単語/トークンの数(確率変数)とナイーブベイズは、以下のことが可能性を計算します。

ここに画像の説明を入力してください

私が間違っている場合は修正してください!


1
次のpdfに多くの情報があります:cs229.stanford.edu/notes/cs229-notes2.pdf
B_Miner

クリストファー・D・マニング、プラバカール・ラガバン、ヒンリッヒ・シュッツェ。「情報検索の概要。」2009年、テキスト分類とNaive Bayesの第13章も良いです。
フランクダーノンクール16

回答:


43

ナイーブベイズという一般的な用語は、各機能の特定の分布ではなく、モデル内の強い独立性の仮定を指します。Naive Bayesモデルは、使用する各機能が、あるクラスが与えられた場合に条件付きで互いに独立していると想定しています。より正式には、あるクラスcが与えられた場合、素朴ベイズの仮定の下で、特徴からf nを観測する確率を計算したい場合、以下が成り立ちます。f1fn

p(f1,...,fn|c)=i=1np(fi|c)

これは、Naive Bayesモデルを使用して新しい例を分類したい場合、事後確率がより簡単に処理できることを意味します。

p(c|f1,...,fn)p(c)p(f1|c)...p(fn|c)

もちろん、これらの独立性の仮定はめったに真実ではないため、一部の人がこのモデルを「白痴ベイズ」モデルと呼んでいる理由を説明できるかもしれませんが、実際には、Naive Bayesモデルは、独立性の仮定は誤りです。

ここまでは、各機能の分布については何も述べていませんでした。つまり、未定義のままにしました。多項ナイーブベイズという用語は、各p f i | c が他の分布ではなく多項分布であることを単に知らせます。これは、テキストのワードカウントなど、カウントに簡単に変換できるデータに適しています。p(fi|c)p(fi|c)

Naive Bayes分類器で使用していた分布はGuassian pdfなので、Guassian Naive Bayes分類器と呼ぶことができると思います。

要約すると、Naive Bayes分類器はモデル内の各機能の条件付き独立性を指す一般的な用語であり、Multinomial Naive Bayes分類器は各機能の多項分布を使用するNaive Bayes分類器の特定のインスタンスです。

参照:

スチュアート・J・ラッセルとピーター・ノーヴィグ。2003.人工知能:現代のアプローチ(2版)。ピアソン教育。Pを参照してください。「愚かなベイズ」およびナイーブベイズモデルの一般的な定義とその独立性の前提については499


リンクが壊れている
ssoler

@ jlund3、素敵な説明をありがとう。分類器に分布の情報をどのように組み込みますか?私は、フォーミュラp(c | f1、...、fn)∝p(c)p(f1 | c)... p(fn | c)がどのようにグアス分布かマルチモーダルかによって変化することを意味します
デビッド

簡単な説明のおかげで、私は本をお勧めします(スチュアート・J.ラッセルとピーター・ノーヴィグ2003人工知能:A現代のアプローチ(2編))あまりにもNBと人工知能技術の詳細な知識のために上で参照...
Mirani

多項分布のカウントは独立ではありません。ここに私の質問を参照してください。datascience.stackexchange.com/questions/32016/...
ハナンShteingart

10

P(xi|cj)1in1jk(i,j)P(xi|cj1)P(xi|cj2)

多項ナイーブベイズは、すべてのペアの多項分布を単純に仮定します。これは、ドキュメント内の単語数など、場合によっては合理的な仮定のようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.