1
ダウンサンプリングはロジスティック回帰係数を変更しますか?
非常にまれな陽性クラスのデータセットがあり、陰性クラスをダウンサンプリングし、ロジスティック回帰を実行する場合、陽性クラスの有病率を変更したという事実を反映するように回帰係数を調整する必要がありますか? たとえば、Y、A、B、Cの4つの変数を持つデータセットがあるとします。Y、A、Bはバイナリで、Cは連続です。11,100個の観測値Y = 0および900 Y = 1の場合: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1) A、B、Cが与えられた場合、Yを予測するためにロジスティック回帰を近似します。 dat1 <- data.frame(Y, …