2
「再編成トリック」の名前(データセットをランダムに並べ替えて、推定器のバイアスを推定します)
複雑なモデリング手法が偏っているかどうかを調べるための次の方法の参照または名前を知っていますか?TTT 元のデータセットにを適用します。そのパフォーマンスを測定します(例:回帰設定のR-2乗)。TTT 応答変数をランダムに並べ替えて、新しいデータセットを取得します。を適用し、そのパフォーマンスを測定します。[観測が依存している場合、このステップはより複雑になります。]P 'TTTP』P′P' が実質的にゼロのパフォーマンスと異なる場合、がバイアスされていると結論付けます。 TP』P′P'TTT リソースが許す場合、ステップ2を繰り返すことができます。これにより、パフォーマンス測定の順列ヌル分布が発生します。しかし、私のアプリケーションでは、リソースの問題のためにこれを行うことはできません。 この「再編成」のトリックは、誰かが(一部の設定で)リーブワンアウト相互検証のバイアスを調査するために使用したことを暗に覚えています。しかし、彼が私のプロセスの中で一度だけプロセス全体を繰り返すことができたのかどうかはわかりません。 単純な後方選択の「力」を示すRの例: # Generate random data set. Only random performance is expected. n <- 100 p <- 30 set.seed(7567) y <- rnorm(n) X <- rnorm(n*p) dim(X) <- c(n, p) data <- data.frame(y, X) # Modelling technique: backward selection with OLS T <- function(data) …