基本的な質問をさせてください。離散変数に対する単純ベイズのメカニズムを理解しており、計算を「手動」でやり直すことができます。(HouseVotes84のコードは以下の通りです)。
ただし-連続変数のメカニズムがどのように機能するかを確認するのに苦労しています(以下のコード例)。パッケージはどのように条件付き確率[, 1]
を計算し[, 2]
ますか、以下の表を参照してください 個々のX値は一意であるため、各ポイントの周囲に範囲を作成し、これらの範囲内の相対頻度を計算しますか(たとえば、ポイントが+0.311の場合、0.1および+0.5?)これは基本的な質問かもしれません-もしそうなら謝罪します。
テーブル
A-priori probabilities:
Y
blue orange
0.5 0.5
Conditional probabilities:
values
Y [,1] [,2]
blue 0.08703793 0.9238799
orange 1.33486433 0.9988389
コード
blue=rep("blue",50); orange=rep("orange",50); colour=c(blue,orange); values1=rnorm(50,0,1); values2=rnorm(50,1,1); values=c(values1,values2)
df=data.frame(colour,values)
(model <- naiveBayes(colour ~ ., data = df))
(predict(model, df[1:10,]))
(predict(model, df[1:10,], type = "raw"))
(pred <- predict(model, df))
table(pred, df$colour)
## Categorical data only:
library(e1071)
data(HouseVotes84, package = "mlbench")
HouseVotes84=HouseVotes84[,1:3]
(model <- naiveBayes(Class ~ ., data = HouseVotes84))
(predict(model, HouseVotes84[1:10,]))
(predict(model, HouseVotes84[1:10,], type = "raw"))
(pred <- predict(model, HouseVotes84))
table(pred, HouseVotes84$Class)