2
R MICEデータ補完の実行時間を改善する方法
簡単に言えば、R MICE(データ補完)の実行時間を改善する方法はありますか? 私はデータセット(30変数、130万行)で作業しています。これには(かなりランダムに)欠落したデータが含まれています。30変数のうち約15の観測値の約8%にNAが含まれています。不足しているデータを補完するために、MICEパッケージの一部であるMICE関数を実行しています。 method = "fastpmm"でm = 1のサブセット(100,000行)でも、実行時間が非常に遅くなり、約15分間実行されます。 パフォーマンスをあまり落とさずに実行時間を改善する方法はありますか?(mice.impute.meanは非常に高速ですが、重要な情報が失われます!)。 再現可能なコード: library(mice) df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE))) df <- data.frame(scale(df)) output <- mice(df, m=1, method = "fastpmm")