これらのデータは、ガンマ分布とは異なり、対数正規分布と比較して短い裾を持っています。
set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)
それにもかかわらず、データは強く右方向に歪んでいるため、最大値が平均とその信頼区間の推定に重要な役割を果たすことが期待できます。したがって、対数正規(LN)推定量は、平均と2つの信頼限界を過大評価する傾向があることを予測する必要があります。
チェックして、比較のために、通常の推定量を使用しましょう。つまり、サンプル平均とその正規理論の信頼区間です。通常の推定量は、データではなく標本平均の近似正規性のみに依存していることに注意してください。このような大きなデータセットでは、うまく機能することが期待できます。これを行うには、ci
関数を少し変更する必要があります。
ci <- function (x, alpha=.05) {
z <- -qnorm(alpha / 2)
y <- log(x); n <- length(y); s2 <- var(y)
m <- mean(y) + s2 / 2
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
exp(c(mean=m, lcl=m-d, ucl=m+d))
}
正規理論の推定の並列関数を次に示します。
ci.u <- function(x, alpha=.05) {
mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}
このシミュレートされたデータセットに適用すると、出力は
> ci(x)
mean lcl ucl
2.03965 1.87712 2.21626
> ci.u(x)
mean lcl ucl
1.94301 1.81382 2.07219
によって生成された正規理論の推定値ci.u
は、真の平均値であるに少し近づきますが、1つのデータセットからどの手順がより適切に機能する傾向があるかを判断するのは困難です。調べるために、多くのデータセットをシミュレートしましょう:1.9
trial <- function(n=500, k=1.9) {
x <- rgamma(n, k)
cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())
出力を真の平均値と比較することに関心があります。ヒストグラムのパネルがその点で明らかになっています。1.9
xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")
対数正規手順は平均と信頼限界を過大評価する傾向があるのは明らかですが、通常の手順は適切に機能します。信頼区間の手順の範囲を推定できます。
> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
LNLCL LCL LNUCL UCL
0.2230 0.0234 1.0000 0.9648
この計算は言う:
LNの下限は、真の平均の約22.3%をカバーできません(意図した2.5%ではなく)。
通常の下限では、意図した2.5%に近い、約2.3%の時間の真の平均をカバーできません。
LNの上限は、常に真の平均を超えます(意図したとおりに2.5%の時間を下回るのではなく)。これにより、95%の信頼区間ではなく、両面100%-(22.3%+ 0%)= 77.7%の信頼区間になります。
通常の上限では、時間の約100-96.5 = 3.5%で真の平均をカバーできません。これは、意図した2.5%の値より少し大きくなっています。したがって、通常の制限は、95%信頼区間ではなく、両側100%-(2.3%+ 3.5%)= 94.2%信頼区間で構成されます。
対数正規間隔での名目カバレッジの95%から77.7%への減少はひどいものです。通常の間隔での94.2%への減少はまったく悪くなく、(生データの対数ではなく)歪度の影響に起因する可能性があります。
平均のさらなる分析は対数正規性を仮定すべきではないと結論付けなければなりません。
注意してください!一部の手順(予測限界など)は、これらの平均の信頼限界よりも歪度の影響を受けやすいため、歪んだ分布を考慮する必要があります。ただし、lognormalプロシージャがこれらのデータを使用して実際に意図された分析を適切に実行できるとは考えられません。