単純ベイズの理解:条件付き確率の計算


7

感情分析のタスクとして、で表されるクラスと機能とします。ci

各クラスの条件付き確率は次のように表すことができます ここで、は各特徴を表し、はクラスです我々は持っています。次に、経験的に、 ことができます。ここで:

P(c|wi)=P(wi|c)P(c)P(wi)
wic
P(wi|c)=ncinc
P(wi)=nin
P(c)=ncn

nは、すべてのクラスの特徴の総数です。

nciは、クラスその特徴カウント数を表し。ic

ncは、クラスの機能の総数です。

niは、すべてのクラスの機能の総数です。

上記の私の理解は正しいですか?したがって、各単語のこれらの確率を考えると、私は単純なベイズの仮定です。単語は独立しているため、特定のクラスのドキュメントの各単語を単純に乗算します。つまり、ここで、はドキュメント内の単語数です。これは正しいです?P(c|wi)P(c|wi),iNN

条件付き確率を数値で実際に計算するには、次のことを行えば十分でしょうか。

P(c|wi)=P(wi|c)P(c)P(wi)=ncincncnnni=ncini

方程式の最後の部分は、かなり複雑な確率を計算するには単純すぎるように思えるため、私には少し疑わしく見えます。

回答:


4

数式は1つのに対して正しいですが、ドキュメントを分類する場合は、を計算する必要があります。wiP(c|w1,,wN)

次に、

P(c|w1,,wN)=P(c)P(w1,,wN|c)P(w1,,wN)=P(c)i=1NP(wi|c)P(w1,,wN)i=1NP(c|wi)

ここでは、ナイーブベイズの仮定により、2番目の方程式が成立します。

分類のためには定数なので(データが与え無視できます。式はまだ単純ですが(「ナイーブ」)、それほど単純化されていません。P(w1,,wN)

方程式の最後の部分は、かなり複雑な確率を計算するには単純すぎるように思えるため、私には少し疑わしく見えます。

ナイーブベイズは多くのアプリケーションでまともな分類子ですが、生成された確率は通常あまり代表的ではないことに注意してください。


ご回答有難うございます。実際のプログラムでは、なぜこの結果が得られないのですか?私はナイーブベイの多くの実装を見てきましたが、それらのどれも直接を計算することはありません。nci
user19241256

私が質問を理解しているのかわかりません...なんらかの形で、それは数えることになるでしょう。例を挙げていただけますか?
oW_
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.