ランダムフォレストやExtreme Gradient Boosting(XGBoost)などのアルゴリズムを使用する場合、予測値ごとに信頼スコア(信頼値または尤度とも呼ばれます)を取得する方法はありますか?この信頼スコアが0から1の範囲であり、特定の予測について私がどれほど自信があるかを示しているとします。
自信についてインターネットで見つけたものから、通常は間隔で測定されます。ライブラリconfpred
からの関数を使用して計算された信頼区間の例を次に示しlava
ます。
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
コード出力は信頼区間のみを提供します。
ライブラリもありますconformal
が、私は回帰の信頼区間にも使用されています。 」
だから方法はあります:
回帰問題の各予測の信頼値を取得するには?
方法がない場合、信頼度スコアとしてこれを各観測に使用することは意味がありますか?
信頼区間の上限と下限の間の距離(上記の出力例のように)。したがって、この場合、信頼区間が広いほど不確実性が高くなります(ただし、実際の値が区間のどこにあるかは考慮されません)。
randomForestCI
ステファンウェイガーのパッケージと、スーザンアセイの関連論文をご覧ください。これはCIのみを提供することに注意してください 'が、残差分散を計算することにより、CIから予測区間を作成できます。