rpart(R内)を使用してCARTモデル(特に分類ツリー)を構築する場合、モデルに導入されたさまざまな変数の重要性を知ることはしばしば興味深いです。
したがって、私の質問は次のとおりです。CARTモデルの参加変数の変数の重要度をランク付け/測定するための一般的な尺度は 何ですか?Rを使用してこれをどのように計算できますか(たとえば、rpartパッケージを使用する場合)
たとえば、ダミーコードを作成して、ソリューションを示します。この例は、変数x1とx2が「重要」であり、(ある意味では)x1がx2よりも重要であることを明確にするように構造化されています(x1はより多くのケースに適用されるため、データの構造により大きな影響を与えるため、次にx2)。
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(参照は常に歓迎されます)