回答:
データの分布は正規である必要はありません。ほぼ正規でなければならないのはサンプリング分布です。サンプルサイズが十分に大きい場合、中央極限定理により、ランダウ分布からの平均のサンプリング分布はほぼ正常である必要があります。
したがって、データでt検定を安全に使用できる必要があります。
この例を考えてみましょう:mu = 0およびsd = 0.5の対数正規分布の母集団があると仮定します(Landauに少し似ています)
したがって、サンプルの平均を計算するたびにこの分布から30回の観測値を5000回サンプリングします。
そして、これは私たちが得るものです
とても普通に見えますよね?サンプルサイズを増やすと、さらに明確になります
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))