Effects
packageは、packageを通じて取得した線形混合効果モデルの結果をプロットするための非常に高速で便利な方法を提供しlme4
ます。このeffect
関数は信頼区間(CI)を非常に迅速に計算しますが、これらの信頼区間はどの程度信頼できますか?
例えば:
library(lme4)
library(effects)
library(ggplot)
data(Pastes)
fm1 <- lmer(strength ~ batch + (1 | cask), Pastes)
effs <- as.data.frame(effect(c("batch"), fm1))
ggplot(effs, aes(x = batch, y = fit, ymin = lower, ymax = upper)) +
geom_rect(xmax = Inf, xmin = -Inf, ymin = effs[effs$batch == "A", "lower"],
ymax = effs[effs$batch == "A", "upper"], alpha = 0.5, fill = "grey") +
geom_errorbar(width = 0.2) + geom_point() + theme_bw()
effects
パッケージを使用して計算されたCIによると、バッチ「E」はバッチ「A」と重複しません。
同じusing confint.merMod
関数とデフォルトの方法を試してみると:
a <- fixef(fm1)
b <- confint(fm1)
# Computing profile confidence intervals ...
# There were 26 warnings (use warnings() to see them)
b <- data.frame(b)
b <- b[-1:-2,]
b1 <- b[[1]]
b2 <- b[[2]]
dt <- data.frame(fit = c(a[1], a[1] + a[2:length(a)]),
lower = c(b1[1], b1[1] + b1[2:length(b1)]),
upper = c(b2[1], b2[1] + b2[2:length(b2)]) )
dt$batch <- LETTERS[1:nrow(dt)]
ggplot(dt, aes(x = batch, y = fit, ymin = lower, ymax = upper)) +
geom_rect(xmax = Inf, xmin = -Inf, ymin = dt[dt$batch == "A", "lower"],
ymax = dt[dt$batch == "A", "upper"], alpha = 0.5, fill = "grey") +
geom_errorbar(width = 0.2) + geom_point() + theme_bw()
すべてのCIが重複していることがわかります。関数が信頼できるCIの計算に失敗したことを示す警告も表示されます。この例と実際のデータセットを見ると、effects
パッケージがCI計算でショートカットを使用していることが疑われますが、これは統計学者によって完全に承認されていない可能性があります。オブジェクトのパッケージから関数によって返されるCIの信頼性はどれくらいですか?effect
effects
lmer
試したこと:ソースコードを見ると、effect
関数が関数に依存していることがわかりました。Effect.merMod
関数はEffect.mer
次のように関数を指示します。
effects:::Effect.mer
function (focal.predictors, mod, ...)
{
result <- Effect(focal.predictors, mer.to.glm(mod), ...)
result$formula <- as.formula(formula(mod))
result
}
<environment: namespace:effects>
mer.to.glm
関数はlmer
オブジェクトから分散共変行列を計算するようです:
effects:::mer.to.glm
function (mod)
{
...
mod2$vcov <- as.matrix(vcov(mod))
...
mod2
}
これは、おそらく、Effect.default
CIを計算する関数で使用されます(この部分を誤解している可能性があります)。
effects:::Effect.default
...
z <- qnorm(1 - (1 - confidence.level)/2)
V <- vcov.(mod)
eff.vcov <- mod.matrix %*% V %*% t(mod.matrix)
rownames(eff.vcov) <- colnames(eff.vcov) <- NULL
var <- diag(eff.vcov)
result$vcov <- eff.vcov
result$se <- sqrt(var)
result$lower <- effect - z * result$se
result$upper <- effect + z * result$se
...
これが正しいアプローチであるかどうかを判断するのにLMMについて十分な知識はありませんが、LMMの信頼区間計算に関する議論を考慮すると、このアプローチは疑わしいほど単純に見えます。