単純ベイズについて

StatSoft社（2013）、電子統計教科書、「ナイーブベイズ分類器」：

単純ベイズ分類の概念を示すために、上の図に表示されている例を考えてください。前述のように、オブジェクトは緑または赤に分類できます。私のタスクは、新しいケースが到着したときに分類することです。つまり、現在終了しているオブジェクトに基づいて、どのクラスラベルに属するかを決定します。

GREENオブジェクトはREDの2倍であるため、新しいケース（まだ観察されていない）がREDではなくGREENのメンバーシップを持っている可能性が2倍であると考えるのが合理的です。ベイジアン分析では、この信念は事前確率として知られています。事前確率は、過去の経験、この場合は緑と赤のオブジェクトの割合に基づいており、実際に発生する前に結果を予測するためによく使用されます。

したがって、次のように記述できます。

合計60個のオブジェクトがあり、そのうち40個が緑、20個が赤であるため、クラスメンバーシップの事前確率は次のとおりです。

事前確率を定式化したので、新しいオブジェクト（白丸）を分類する準備ができました。オブジェクトは十分にクラスター化されているため、Xの近くに緑（または赤）のオブジェクトが多いほど、新しいケースがその特定の色に属する可能性が高いと想定するのが妥当です。この尤度を測定するために、クラスラベルに関係なく（事前に選択される）多数のポイントを含むXの周りに円を描きます。次に、各クラスラベルに属する円内のポイントの数を計算します。これから、尤度を計算します：

上記の図から、GREENが与えられたXの尤度は、REDが与えられたXの尤度よりも小さいことが明らかです。副<文>この[前述の事実の]結果として、それ故に、従って、だから◆【同】consequently; therefore <文>このような方法で、このようにして、こんなふうに、上に述べたように◆【同】in this manner <文>そのような程度まで<文> AひいてはB◆【用法】A and thus B <文>例えば◆【同】for example; as an example：

XがGREENに属している可能性があることを事前確率が示していますが（REDと比較して2倍のGREENがあると仮定）、そうでない可能性は示されます。XのクラスメンバーシップがREDであること（Xの近くにGREENよりも多くのREDオブジェクトがあると仮定）。ベイズ分析では、いわゆるベイズの規則（トーマス・ベイズ牧師1702-1761にちなんで名付けられた）を使用して事後確率を形成するために、両方の情報源、つまり事前確率と尤度を組み合わせることによって最終分類が生成されます。

最後に、クラスメンバーシップが最大の事後確率を達成するため、XをREDとして分類します。

これが私の数学の理解の難しさの出番です。

ここに画像の説明を入力してください

p（Cj | x1、x2、x ...、xd）は、クラスメンバーシップの事後確率、つまり、XがCjに属する確率ですが、なぜこのように書くのですか？

尤度の計算？

ここに画像の説明を入力してください

事後確率？

ここに画像の説明を入力してください

私は数学を学んだことは一度もありませんが、単純なベイズに対する私の理解は大丈夫です。これらのメソッドの視覚化と、わかりやすい方法で数学を書き出す方法を教えてください。

machine-learning naive-bayes

— G Gr
ソース

（+1）私はあなたがあなたの質問を提起した本当に慎重で明確な方法を賞賛します。

— -rolando2

@ rolando2：この質問のすべての数字とほぼすべてのテキストは、statsoft.com / textbook / naive

— classifier

他の人が書いた資料の参照方法に従って、この投稿を編集して、他の場所の資料を明確に属性付けしてください。

— スコルチ-モニカの復職

Stack Exchangeサイトでは、直接引用の適切な帰属が常に要件でした。とにかく、省略は簡単に修正されます。＆私はそうしました。アカウントを削除する必要はありません-再考してください。

— Scortchi -復活モニカ

回答:

あなたがどこで電話を切っているのか完全に明確ではないので、私はNaive Bayesプロセス全体を最初から実行します。

$P(class|feature_1, feature_2,..., feature_n$

P (A | B) = \frac{P (B | A) \cdot P (A)}{P (B)}

$P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)}$

P (c l a s s | f e a t u r e s) = \frac{P (f e a t u r e s | c l a s s) \cdot P (c l a s s)}{P (f e a t u r e s)}

$P(class|features)=\frac{P(features|class) \cdot P(class)}{P(features)}$

$P(features)$ $P(class|features)$ $class$ $P(features)$ $class$

P (c l a s s | f e a t u r e s) \propto P (f e a t u r e s | c l a s s) \cdot P (c l a s s)

$P(class|features) \propto P(features|class) \cdot P(class)$

$P(class)$

$P(features|class)$ $P(feature_1, feature_2, ..., feature_n|class)$

P (f e a t u r e_{1}, f e a t u r e_{2}, . . ., f e a t u r e_{n} | c l a s s) = \prod_{i} P (f e a t u r e_{i} | c l a s s)

$P(feature_1, feature_2, ..., feature_n|class) = \prod_i{P(feature_i|class})$

離散サンプルデータ。

例：分類器のトレーニング

分類器をトレーニングするために、ポイントのさまざまなサブセットをカウントし、それらを使用して事前確率および条件付き確率を計算します。

P (c l a s s = g r e e n) = \frac{40}{60} = 2 / 3 and P (c l a s s = r e d) = \frac{20}{60} = 1 / 3

$P(class=green)=\frac{40}{60} = 2/3 \text{ and } P(class=red)=\frac{20}{60}=1/3$

$feature_1$ $feature_2$

$P(feature_1=A|class=red)$
$P(feature_1=B|class=red)$
$P(feature_1=A|class=green)$
$P(feature_1=B|class=green)$
$P(feature_2=X|class=red)$
$P(feature_2=Y|class=red)$
$P(feature_2=X|class=green)$
$P(feature_2=Y|class=green)$
（明らかでない場合、これは機能値とクラスのすべての可能なペアです）

$P(feature_1=A|class=red)=1$
$P(feature_1=B|class=red)=0$
$P(feature_1=A|class=green)=1/8$
$P(feature_1=B|class=green)=7/8$
$P(feature_2=X|class=red)=3/10$
$P(feature_2=Y|class=red)=7/10$
$P(feature_2=X|class=green)=8/10$
$P(feature_2=Y|class=green)=2/10$

これらの10の確率（2つの事前確率と8つの条件付き）がモデルです

新しい例を分類する

$feature_1$ $feature_2$

P (c l a s s = r e d | e x a m p l e) \propto P (c l a s s = r e d) \cdot P (f e a t u r e_{1} = A | c l a s s = r e d) \cdot P (f e a t u r e_{2} = Y | c l a s s = r e d)

$P(class=red|example) \propto P(class=red) \cdot P(feature_1=A|class=red) \cdot P(feature_2=Y|class=red)$

P (c l a s s = r e d | e x a m p l e) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}

$P(class=red|example) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}$

P (c l a s s = g r e e n | e x a m p l e) \propto P (c l a s s = g r e e n) \cdot P (f e a t u r e_{1} = A | c l a s s = g r e e n) \cdot P (f e a t u r e_{2} = Y | c l a s s = g r e e n)

$P(class=green|example) \propto P(class=green) \cdot P(feature_1=A|class=green) \cdot P(feature_2=Y|class=green)$

$2/3 \cdot 0 \cdot 2/10$

ノート

元の例では、機能は連続しています。その場合、各クラスにP（feature = value | class）を割り当てる方法を見つける必要があります。次に、既知の確率分布（ガウス分布など）に適合させることを検討します。トレーニング中に、各特徴次元に沿って各クラスの平均と分散を見つけます。ポイントを分類するには、見つけます。 $P(feature=value|class)$ 各クラスに適切な平均と分散をプラグインすることにより。データの詳細に応じて、他の分布がより適切かもしれませんが、ガウス分布が適切な出発点になります。

私はDARPAデータセットにあまり詳しくありませんが、基本的に同じことをするでしょう。おそらく、P（attack = TRUE | service = finger）、P（attack = false | service = finger）、P（attack = TRUE | service = ftp）などのようなものを計算し、それらを組み合わせて例と同じ方法。補足として、ここでの秘trickの一部は、優れた機能を考え出すことです。たとえば、ソースIPはおそらく絶望的にまばらになります。おそらく、特定のIPに対して1つまたは2つの例しかありません。IPの位置を特定し、代わりに「Source_in_same_building_as_dest（true / false）」または何かを機能として使用すると、はるかに良い結果を得ることができます。

それがもっと役立つことを願っています。何か説明が必要な場合は、もう一度試してみてください！

— マット・クラウス
ソース

承知しました。よろしければ、答えを編集して、さらにスペースを空けます（そしてLaTexのこともできます）。

— マットクラウス

トレーニングとテストの部分を拡張し、それらを独自のセクションにしました。最初のカップルの段落では...と同じです

— マット・クラウス

マット、これは私が出会ったNaive Bayesのテキスト本の定義よりもずっと明確です。これはおそらく、このWebサイトでこれまでに見た質問に対する最良の回答です。

— ジュバル

@Berkan、ありがとう。それはとても親切です（他にもたくさんのすばらしい答えがあります！）何か提案があれば、喜んでそれらに対処しようと思います！

— マットクラウス

+ 1とstackoverflow.com/questions/10059594/...同様の説明がある

— Drey

$D$ $P(C_j\mid D)$

P (C_{j} ∣ D) = \frac{P (D ∣ C_{j}) P (C_{j})}{P (D)}, j = 1, 2, \dots

$P(C_j\mid D) = \frac{P(D\mid C_j)P(C_j)}{P(D)}, ~ j = 1, 2, \ldots$

j

$j$

P (C_{1} ∣ D)

$P(C_1\mid D)$

P (C_{2} ∣ D), \dots

$P(C_2\mid D), \ldots$

P (C_{j} ∣ D)

$P(C_j\mid D)$

P (D)

$P(D)$

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$

P (D)

$P(D)$

C_{j}

$C_j$

P (C_{j} ∣ D)

$P(C_j\mid D)$ $P(D\mid C_j)$

P (C_{j})

$P(C_j)$

P (C_{j} ∣ D) \propto P (D ∣ C_{j}) P (C_{j}) .

$P(C_j\mid D) \propto P(D\mid C_j)P(C_j).$

D

$D$

(x_{1}, x_{2}, \dots, x_{d})

$(x_1, x_2, \ldots, x_d)$

C_{j})

$C_j)$

\begin{aligned} P (D ∣ C_{j}) & = P (x_{1}, x_{2}, \dots, x_{d} ∣ C_{j}) \\ = P (x_{1} ∣ C_{j}) P (x_{2} ∣ C_{j}) \dots P (x_{d} ∣ C_{j}) \\ = \prod_{1 = 1}^{d} P (x_{i} ∣ C_{j}) \end{aligned}

$\begin{align*} P(D\mid C_j) &= P(x_1, x_2, \ldots, x_d\mid C_j)\\ &= P(x_1\mid C_j)P(x_2\mid C_j)\cdots P(x_d\mid C_j)\\ &= \prod_{1=1}^d P(x_i\mid C_j) \end{align*}$

— ディリップ・サルワテ
ソース

単純ベイズモデルの背後にある主な仮定は、各フィーチャ（x_i）が、クラスが与えられた他のすべてのフィーチャから条件付きで独立しているということです。この仮定により、（あなたが示したように）単純な製品として尤度を書くことができます。

これは、単純ベイズモデルが実際にうまく一般化するのにも役立ちます。トレーニングフェーズについて考えてみましょう。この仮定を行わなかった場合、学習には、すべての特徴が一緒に分布する複雑な高次元分布p（x1、x2、...、xn、c）の推定が含まれます。代わりに、値cを知ることで他のすべての機能の値が無関係になるため、p（x1、c）、p（x2、c）、...、p（xn、c）を推定することで訓練できますx_iに関する追加情報はありません）。

これを視覚化する良い方法はわかりません（標準のグラフィカルモデル表記以外に）が、より具体的にするために、ナイーブベイズモデルを学習するためのコードを書くことができます（ここでいくつかのサンプルデータを取得できます）。トレーニングとテスト。ここで、条件付き独立性の仮定を削除し、コードを変更します。トレーニング、テスト、および以前のモデルとの比較。

— ニック
ソース