Naive Bayesは連続変数をどのように処理しますか?


14

私の(非常に基本的な)理解では、Naive Bayesはトレーニングデータの各特徴のクラス頻度に基づいて確率を推定します。しかし、連続変数の頻度をどのように計算するのでしょうか?また、予測を行う場合、トレーニングセットのどの観測値とも同じ値でない可能性がある新しい観測値をどのように分類しますか?ある種の距離測定を使用していますか、それとも1NNを見つけていますか?


離散的および連続的なナイーブベイズを並べて比較すると、次のようになります。datascience.stackexchange.com
a

回答:


10

単純ベイズ分類(NBC)を実行するには多くの方法があります。NBCの一般的な手法は、機能(変数)の値を四分位数に再コード化することです。これにより、25パーセンタイル未満の値には、1、25〜50番目のa 2、50〜75番目のa 3、75パーセンタイルより大きい4が割り当てられます。したがって、単一のオブジェクトは、ビンQ1、Q2、Q3、またはQ4に1つのカウントを保管します。計算は、これらのカテゴリービンに対してのみ行われます。ビンの数(確率)は、変数値が特定のビンに含まれるサンプルの数に基づいています。たとえば、一連のオブジェクトの機能X1の値が非常に高い場合、これにより、X1のQ4のビンに多くのビン数が含まれます。一方、別のオブジェクトのセットがフィーチャX1の値が低い場合、それらのオブジェクトはフィーチャX1のQ1のビンに多くのカウントを格納します。

これは実際には賢い計算ではなく、連続値を離散化して離散化し、その後利用する方法です。ジニインデックスと情報ゲインは、どの情報が最も有益であるかを決定するために、離散化後に簡単に計算できます。つまり、max(Gini)です。

ただし、NBCを実行するには多くの方法があり、その多くは互いにまったく異なることに注意してください。そのため、講演または論文で実装したものを述べる必要があります。


2

ナイーブベイズの中心は、英雄的な条件付き仮定です。

P(xX,C)=P(xC)

が離散であってはなりません。たとえば、Gaussian Naive Bayesでは、各カテゴリ平均と分散が異なると仮定しています:密度。xCp(xC=i)=ϕ(μi,σi2)

パラメータを推定する方法はいくつかありますが、通常は次のような方法があります。

  • ラベル付きデータで最尤を使用します。(正規分布の場合、平均と分散の最尤推定値は基本的にサンプル平均とサンプル分散です。)
  • ラベルのないデータを持つEMアルゴリズムのようなもの。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.