Rの各予測の回帰の信頼スコア（ランダムフォレスト/ XGBoostを使用）を計算する方法は？

ランダムフォレストやExtreme Gradient Boosting（XGBoost）などのアルゴリズムを使用する場合、予測値ごとに信頼スコア（信頼値または尤度とも呼ばれます）を取得する方法はありますか？この信頼スコアが0から1の範囲であり、特定の予測について私がどれほど自信があるかを示しているとします。

自信についてインターネットで見つけたものから、通常は間隔で測定されます。ライブラリconfpredからの関数を使用して計算された信頼区間の例を次に示しlavaます。

library(lava)
set.seed(123)
n     <- 200
x     <- seq(0,6,length.out=n)
delta <- 3
ss    <- exp(-1+1.5*cos((x-delta)))
ee    <- rnorm(n,sd=ss)
y     <- (x-delta)+3*cos(x+4.5-delta)+ee
d     <- data.frame(y=y,x=x)
newd  <- data.frame(x=seq(0,6,length.out=50))
cc    <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
  plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
  with(cc, lava::confband(newd$x, lwr, upr, fit,  lwd=3, polygon=T, 
                          col=Col("blue"), border=F))
}

コード出力は信頼区間のみを提供します。

ポイント、予測、信頼区間を示すグラフ

ライブラリもありますconformalが、私は回帰の信頼区間にも使用されています。」

だから方法はあります：

回帰問題の各予測の信頼値を取得するには？
方法がない場合、信頼度スコアとしてこれを各観測に使用することは意味がありますか？

信頼区間の上限と下限の間の距離（上記の出力例のように）。したがって、この場合、信頼区間が広いほど不確実性が高くなります（ただし、実際の値が区間のどこにあるかは考慮されません）。

— マリウス
ソース

randomForestCIステファンウェイガーのパッケージと、スーザンアセイの関連論文をご覧ください。これはCIのみを提供することに注意してください 'が、残差分散を計算することにより、CIから予測区間を作成できます。

— generic_user 2017

信頼スコアとは、個々の予測の不確実性から得ることができます（たとえば、その逆をとることによって）。

この不確実性を数値化することは、バギングによって常に可能であり、ランダムフォレストでは比較的単純ですが、これらの推定には偏りがありました。ウェイガー等。（2014）は、これらの不確実性をより効率的に、より少ないバイアスで得るための2つの手順を説明しました。これは、バイアス補正後のバージョンのjackknife-after-bootstrapと極小ジャックナイフに基づいていました。Rパッケージrangerとに実装がありますgrf。

最近では、これは条件付き推論ツリーで構築されたランダムフォレストを使用することで改善されています。シミュレーション研究（Brokamp et al。2018）に基づいて、無限のジャックナイフ推定器は、条件付き推論ツリーを使用してランダムフォレストを構築した場合に、予測の誤差をより正確に推定するように見えます。これはパッケージに実装されていますRFinfer。

ウェイガー、S。、ハスティ、T。、およびエフロン、B。（2014）。ランダムフォレストの信頼区間：ジャックナイフと極小ジャックナイフ。Journal of Machine Learning Research、15（1）、1625-1651。

Brokamp、C.、Rao、MB、Ryan、P。、およびJandarov、R。（2017）。無限小ジャックナイフを使用して漸近分散を推定するための、ランダムフォレストでのリサンプリングと再帰的な分割方法の比較。Stat、6（1）、360-372。

— mkt-モニカの復活
ソース