簡単な例のために、2つの線形回帰モデルがあると仮定します
- モデル1は、3つの予測因子を持っている
x1a
、x2b
と、x2c
- モデル2には、モデル1からの3つの予測子と2つの追加の予測子が
x2a
あり、x2b
母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )
私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。
ご質問
- されたの合理的な推定量Δは、ρ 2を?
- どのように自信が(すなわち、人口R-平方変更のために取得することができ間隔)?
- うブートストラップ信頼区間の計算のためのBE適切なの?
シミュレーションや出版された文献への言及も大歓迎です。
コード例
それが役立つ場合、私は答えを示すために使用できる小さなシミュレーションデータセットをRで作成しました。
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
ブートストラップに関する懸念の理由
私は、約300ケースのいくつかのデータでブートストラップを実行し、シンプルモデルでは5つの予測子、フルモデルでは30の予測子を実行しました。調整されたr二乗差を使用したサンプル推定はでしたが0.116
、ブーストラップされた信頼区間は、主にCI95%(0.095〜0.214)大きく、ブートストラップの平均はサンプル推定の近くにありませんでした。むしろ、ブーストラップされたサンプルの平均は、サンプル内のr二乗間の差のサンプル推定値に中心があるように見えました。これは、差を推定するためにサンプル調整済みr二乗を使用していたという事実にもかかわらずです。
- サンプルのr二乗変化を計算する
- 標準の調整済みr二乗式を使用して、サンプルのr二乗変化を調整する
.082
概して、ブートストラップはサンプルが母集団であることを前提としているため、オーバーフィットの削減が適切に機能しない可能性があると推定しています。