@whuberがコメントで尋ねたように、私のカテゴリNOの検証。編集:1サンプルksテストが実際に誤って使用されているため、shapiroテストを使用します。Whuberは正しい:Kolmogorov-Smirnov検定を正しく使用するには、分布パラメーターを指定する必要があり、データからそれらを抽出しないでください。ただし、これは1サンプルKSテストのSPSSなどの統計パッケージで行われます。
分布について何かを言おうとしますが、t検定を適用できるかどうかを確認します。そのため、このテストは、分析の基礎となる仮定を無効にするほどデータが正常から大きく逸脱しないことを確認するために行われます。したがって、タイプIエラーではなく、タイプIIエラーに関心があります。
ここで、許容できる電力の最小n(0.8など)を計算できるように、「大幅に異なる」を定義する必要があります。ディストリビューションでは、定義するのは簡単ではありません。したがって、私は質問に回答しませんでした。使用する経験則、n> 15およびn <50を除いて賢明な回答をすることはできないからです。基本的には気持ちがいいので、経験以外にその選択を守ることはできません。
しかし、6つの値のみでは、タイプIIエラーがほぼ1にバインドされることを知っています。6回の観測では、シャピロ検定は正規分布、ポアソン分布、均一分布、さらには指数分布を区別できません。タイプIIエラーがほぼ1の場合、テスト結果は無意味です。
shapiro-testによる正規性テストを説明するには:
shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution
値の約半分が0.05より小さいのは、最後の値のみです。これも最も極端なケースです。
shapiroテストで好きなパワーを与える最小nを調べるには、次のようなシミュレーションを実行できます。
results <- sapply(5:50,function(i){
p.value <- replicate(100,{
y <- rexp(i,2)
shapiro.test(y)$p.value
})
pow <- sum(p.value < 0.05)/100
c(i,pow)
})
これにより、次のような消費電力分析が得られます。
ここから、ケースの80%で指数分布と正規分布を区別するには、おおよそ最低20の値が必要であると結論付けています。
コードプロット:
plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
main="Power simulation for exponential distribution",
xlab="n",
ylab="power"
)