単純ベイズの理解:条件付き確率の計算
感情分析のタスクとして、で表されるクラスと機能とします。ccciii 各クラスの条件付き確率は次のように表すことができます ここで、は各特徴を表し、はクラスです我々は持っています。次に、経験的に、 ことができます。ここで:P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)}wiwiw_icccP(wi|c)=ncincP(wi|c)=ncincP(w_i|c) = \frac{n_{ci}}{n_c} P(wi)=ninP(wi)=ninP(w_i) = \frac{n_{i}}{n}P(c)=ncnP(c)=ncnP(c) = \frac{n_c}{n} nnnは、すべてのクラスの特徴の総数です。 ncincin_{ci}は、クラスその特徴カウント数を表し。iiiccc ncncn_cは、クラスの機能の総数です。 ninin_iは、すべてのクラスの機能の総数です。 上記の私の理解は正しいですか?したがって、各単語のこれらの確率を考えると、私は単純なベイズの仮定です。単語は独立しているため、特定のクラスのドキュメントの各単語を単純に乗算します。つまり、ここで、はドキュメント内の単語数です。これは正しいです?P(c|wi)P(c|wi)P(c|w_i)∏P(c|wi),i∈N∏P(c|wi),i∈N\prod P(c|w_i), i \in NNNN 条件付き確率を数値で実際に計算するには、次のことを行えば十分でしょうか。 P(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)} = \frac{n_{ci}}{n_c} \cdot \frac{n_c}{n}\cdot \frac{n}{n_i} = \frac{n_{ci}}{n_i} 方程式の最後の部分は、かなり複雑な確率を計算するには単純すぎるように思えるため、私には少し疑わしく見えます。