単純ベイズ分類器はトレーニングで欠落データをどのように処理しますか?


7

Naive Bayesは、トレーニングまたはテスト/分類インスタンスに存在するかどうかに応じて、欠落データを異なる方法で処理します。

インスタンスを分類するとき、欠損値のある属性は確率計算に含まれません(http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf

トレーニングでは、「[値が不足している]インスタンスは、属性値とクラスの組み合わせの頻度カウントに含まれていません。」(http://www.csee.wvu.edu/~timm/cs591o/old/BasicMethods.html

これは、特定のトレーニングレコードがトレーニングフェーズに含まれていないことを意味しますか?それとも別の意味ですか?


1
たぶんラプラススムージングは​​あなたが探しているものですか?en.wikipedia.org/wiki/Additive_smoothing
Regenschein '16 / 12/14

コメントについては、「欠損値」は「ゼロ確率」とは異なることに注意してください。ゼロ確率とは、値がわかっていてゼロであることを意味します。しかし、欠損値は、確率がわからないことを意味します。ゼロになる可能性があります。しかし、それは0.75や0.3、または0と1の間の任意の値である可能性もありますが、私たちはそれを知りません。また、ラプラシアンスムージングを使用してゼロ確率問題を処理します。欠損値ではない問題。欠損値の問題については、上記の回答で与えられたような属性を無視します。
Kavin Ranawella

回答:


10

一般に、ナイーブベイズ分類器をトレーニングするときに欠損値を処理するときに選択肢があります。あなたはどちらかを選ぶことができます

  1. 欠損値のあるレコードを除外し、
  2. 欠落している属性のみを省略します。

上記にリンクされた例を使用して、これらの2つのアプローチを示します。その例にさらに1つのトレーニングレコードを追加するとします。

Outlook  Temperature  Humidity   Windy   Play
-------  -----------  --------   -----   ----
rainy    cool        normal    TRUE    no
rainy    mild        high      TRUE    no
sunny    hot         high      FALSE   no
sunny    hot         high      TRUE    no
sunny    mild        high      FALSE   no
overcast cool        normal    TRUE    yes
overcast hot         high      FALSE   yes
overcast hot         normal    FALSE   yes
overcast mild        high      TRUE    yes
rainy    cool        normal    FALSE   yes
rainy    mild        high      FALSE   yes
rainy    mild        normal    FALSE   yes
sunny    cool        normal    FALSE   yes
sunny    mild        normal    TRUE    yes
NA       hot         normal    FALSE   yes
  1. 欠損outlook値のために最後のレコードを省略することにした場合、リンクで説明されているトレーニング済みモデルとまったく同じになります。

  2. このレコードから入手できるすべての情報を使用することもできます。outlookこのレコードから属性を単に除外することもできます。これにより、次の更新されたテーブルが生成されます。

           見通し湿度   
==================== ================= ============= ====  
          はいいいえはいいいえはいいいえ 
サニー2 3ホット3 2ハイ3 4
曇り4 0穏やか4 2普通7 1 
雨3 2涼しい3 1
          ----------- --------- ---------- 
晴れ2/9 3/5暑い3/10 2/5最高3/10 4/5 
くもり4/9 0/5穏やか4/10 2/5普通7/10 1/5
雨3/9 2/5涼しい3/10 1/5


            風の強いプレイ
================= ========
      はいいいえはいいいえ
誤り7 2 10 5
真3 3
      ---------- ----------
誤り7/10 2/5 10/15 5/15
真3/10 3/5

を除く 各属性には15の観測値があることに注意してください。観測Outlook値は14のみです。これは、その値が最後のレコードでは利用できなかったためです。リンク先の記事で説明されているように、今後の開発はすべて継続されます。

たとえば、Rパッケージのe1071naiveBayes実装には、na.actionna.omitまたはna.passに設定できるオプションがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.