私が理解していることから、rpart
関数へのcp引数は、minsplitまたはminbucket引数と同じ方法でツリーを事前整理するのに役立ちます。CP値の計算方法がわかりません。例えば
df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class")
mytree<-rpart(y ~ x, data = df, minbucket = 1, minsplit=1)
結果のツリー...
mytree
n= 6
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 6 3 FALSE (0.5000000 0.5000000)
2) x>=2.5 4 1 FALSE (0.7500000 0.2500000) *
3) x< 2.5 2 0 TRUE (0.0000000 1.0000000) *
概要...
summary(mytree)
Call:
rpart(formula = y ~ x, data = df, minbucket = 1, minsplit = 1)
n= 6
CP nsplit rel error xerror xstd
1 0.6666667 0 1.0000000 2.0000000 0.0000000
2 0.0100000 1 0.3333333 0.6666667 0.3849002
.666と.01はどこから来るのですか?
この投稿で
—
Haitao Du
これは、次のレベルのツリーへのrelエラーの減少です。多分別の説明があるかもしれませんが、私の意見では、私は単純なものを好む
—
クラウドコンピューティング18/06/15