なぜ誰もベイジアン多項式ナイーブベイズ分類器を使用しないのですか?


15

(教師なし)テキストモデリングでは、潜在ディリクレ割り当て(LDA)は確率的潜在セマンティック分析(PLSA)のベイジアンバージョンです。基本的に、LDA = PLSA + Dirichletはそのパラメーターよりも優先されます。私の理解では、LDAは現在、参照アルゴリズムであり、さまざまなパッケージに実装されていますが、PLSAはもう使用すべきではありません。

ただし、(教師付き)テキスト分類では、多項分布のナイーブベイズ分類器に対してまったく同じことを行い、パラメーターよりも先にディリクレを置くことができます。しかし、私は誰もそれをするのを見たことがないと思います、そして多項式のNaive Bayesの「ポイント推定」バージョンはほとんどのパッケージで実装されたバージョンのようです。その理由はありますか?

回答:


7

以下は、多項ナイーブベイズ(MNB)分類器の「体系的な」欠点のいくつかに対処する素晴らしい論文です。アイデアは、いくつかの調整を通じてMNBのパフォーマンスを向上させることができるということです。そして、彼らは(均一な)ディリクレ事前分布を使用することに言及しています。

全体として、MNBに興味があり、このペーパーをまだ読んでいない場合は、そうすることを強くお勧めします。

また、同じ人/人による付随する修士論文を見つけましたがまだ自分で読んでいません。あなたはそれをチェックアウトできます。


2番目のリンクは死んでいる-おそらくdspace.mit.edu/handle/1721.1/7074最新バージョンである
beldaz

5

ほとんどのNB実装では、ラプラス補正を使用して条件付き確率を推定できると考えられます。これにより、ベイジアンNB分類器に事前に特定のディリクレを使用したMAPソリューションが提供されます。@Zhubarb(+1)が指摘しているように、NB分類子のベイジアン処理はすでに導出され実装されています(レニーの論文/論文は読む価値があります)。ただし、NBの独立性の仮定はほとんど常に間違っています。その場合、モデルをその仮定に完全に依存させる(完全なベイジアン処理による)のは良いことではないかもしれません。


0

あなたの説明が真実だとは思わない。LDAとMNBの確率モデルは異なります。

2つの主な違いの1つは、LDAの生成モデルでは、単語が描画されるときに、まずその単語のトピックが選択され、次にそのトピック分布からの単語が選択されることです。ドキュメント内の各単語は、異なるトピックから描画できます。

MNBの生成モデルでは、ドキュメントに1つのクラスが割り当てられ、そのドキュメント内のすべての単語はそのクラスの(同じ)分布から引き出されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.