ランダムフォレストに相互作用用語を含める

応答Yと予測子X1、....、Xnがあるとします。X1、...、Xnの線形モデルを介してYを近似しようとした場合、YとX1、...、Xnの間の真の関係が線形ではなかったため、 Xを何らかの方法で変換してからモデルを近似することによりモデルを修正します。さらに、X1、...、XNが他の機能とは無関係にyに影響を与えなかった場合、相互作用項x1 * x3またはx1 * x4 * x7を含めることでモデルを改善できる可能性がありますまたは同種のもの。したがって、線形の場合、相互作用項は、応答と特徴間の非線形性または独立性違反を修正することにより価値をもたらす可能性があります。

ただし、ランダムフォレストはこれらの仮定を実際に行いません。ランダムフォレストを近似するときに相互作用用語を含めることは重要ですか？または、個々の用語を含めて適切なパラメーターを選択するだけで、ランダムフォレストがこれらの関係をキャプチャできるようになりますか？

machine-learning random-forest

— mt88
ソース

フィーチャエンジニアリングは実生活では非常に重要ですが、ツリー（およびランダムフォレスト）は、フォームの相互作用項を見つけるのに非常に優れていx*yます。以下は、双方向の相互作用を伴う回帰の簡単な例です。単純な線形モデルは、ツリーおよびツリーのバッグ（ランダムフォレストのより単純な代替手段）と比較されます。

ご覧のとおり、ツリー自体は相互作用を見つけるのに非常に優れていますが、この例では線形モデルは良くありません。

# fake data

x <- rnorm(1000, sd=3)
y <- rnorm(1000, sd=3)
z <- x + y + 10*x*y + rnorm(1000, 0, 0.2)
dat <- data.frame(x, y, z)

# test and train split
test <- sample(1:nrow(dat), 200)
train <- (1:1000)[-test]

# bag of trees model function
boot_tree <- function(formula, dat, N=100){
  models <- list()
  for (i in 1:N){
    models[[i]] <- rpart(formula, dat[sample(nrow(dat), nrow(dat), replace=T), ])
  }
  class(models) <- "boot_tree"
  models
}

# prediction function for bag of trees
predict.boot_tree <- function(models, newdat){
  preds <- matrix(0, nc=length(models), nr=nrow(newdat))
  for (i in 1:length(models)){
    preds[,i] <- predict(models[[i]], newdat)
  }
  apply(preds, 1, function(x) mean(x, trim=0.1))
}

## Fit models and predict:

# linear model
model1 <- lm(z ~ x + y, data=dat[train,])
pred1 <- predict(model1, dat[test,])

# tree
require(rpart)
model2 <- rpart(z ~ x + y, data=dat[train,])
pred2 <- predict(model2, dat[test,])

# bag of trees
model3 <- boot_tree("z ~ x+y", dat)
pred3 <- predict(model3, dat[test,])

ylim = range(c(pred1, pred2, pred3))

# plot predictions and true z

plot(dat$z[test], predict(model1, dat[test,]), pch=19, xlab="Actual z",
ylab="Predicted z", ylim=ylim)
points(dat$z[test], predict(model2, dat[test,]), col="green", pch=19)
points(dat$z[test], predict(model3, dat[test,]), col="blue", pch=19)

abline(0, 1, lwd=3, col="orange")

legend("topleft", pch=rep(19,3), col=c("black", "green", "blue"),
legend=c("Linear", "Tree", "Forest"))

ここに画像の説明を入力してください

— ヒラメ
ソース

非常に素晴らしい。このテーマについてお勧めできる論文はありますか？ありがとう

— シュタインボック