非常に小さなサンプルサイズ(n = 6など)で正規性をテストすることは意味がありますか?


26

サンプルサイズは6です。このような場合、Kolmogorov-Smirnov検定を使用して正規性を検定するのは理にかなっていますか?SPSSを使用しました。それぞれの取得に時間がかかるため、サンプルサイズは非常に小さくなっています。それが意味をなさない場合、テストするのに意味のある最小数はいくつのサンプルですか?

注: ソースコードに関連するいくつかの実験を行いました。サンプルは、ソフトウェアのバージョン(バージョンA)でのコーディングに費やされた時間です。 実際には、別のバージョンのソフトウェア(バージョンB)でのコーディングに費やされたサンプルサイズ6があります。

コードバージョンAで費やされた時間がコードバージョンBで費やされた時間と異なるかどうかをテストするために、1サンプルt検定を使用して仮説テストを行いたいと思います(これは私のH1です)。1サンプルのt検定の前提条件は、テストするデータを正規分布する必要があることです。そのため、正常性をテストする必要があります。


6
私は、1つには、n = 6で正規性がテストに値する仮説である文脈を想像するのが困難です。これは、経験の浅いユーザーが複数の仮説テスト(回帰を実行してから残差の正常性をテストする)であり、いわばクローゼットのスケルトンを無視して症状に対処していることを恐れています。
user603

3
@user質問者について推測するのは不公平です。質問に答えましょうか?したがって、コストのかかる決定に使用される値の予測上限を計算することを計画しているとします。PLの値は、正常性の仮定に敏感です。データ生成プロセスは正常ではありませんが、データの生成には費用と時間がかかります。以前の実験では、は正規性を拒否するのに十分強力であることを示唆しています。(米国の地下水モニタリングプログラムの標準的なフレームワークについて説明しました。)n=6
whuber

3
User603(最初のコメントです):@Jorisが回答を提供しておらず、彼のコメントには正当性が一切含まれていないことを指摘したいと思います。強調された「いいえ」がこの質問に対する有効な一般的な答えであるなら、それを支持する議論とともにそのように書き留めて、コミュニティによって上下に評価できるようにしましょう。
whuber

2
@whuber:強調する「いいえ」の引数を追加しました。
ジョリスメイズ

1
@ジョリスありがとうございます!それは役に立ち、啓発的です。
whuber

回答:


38

はい。

すべての仮説検定には、2つの顕著な特性がありますサイズ(または「有意水準」)、信頼度と予想される偽陽性率に直接関係する数、および偽陰性の可能性を表すです。サンプルサイズが小さく、小さいサイズを主張し続けると(確信度が高い)、検出力が低下します。これは、小規模サンプルテストでは通常、小さな差または中程度の差を検出できないことを意味します。 しかし、それらはまだ意味があります。

KSテストでは、サンプルが正規分布からのものであるかどうかを評価します。このテストに失敗するには、6つの値のサンプルが非常に非正常に見える必要があります。しかし、もしそうなら、より大きなサンプルサイズでそれを解釈するのとまったく同じように、このヌルの拒否を解釈できます。一方、帰無仮説の棄却に失敗した場合、偽陰性率が高いため、ほとんど意味がありません。特に、基礎となる分布が正規分布であるかのように振る舞うことは比較的危険です。

ここでもう1つ注意が必要な点があります。一部のソフトウェアでは、近似を使用して検定統計量からp値を計算します。多くの場合、これらの近似は大きなサンプルサイズではうまく機能しますが、非常に小さなサンプルサイズでは不十分に機能します。この場合、p値が正しく計算されたことを信頼できません。つまり、目的のテストサイズが達成されたことを確認できません。詳細については、ソフトウェアのマニュアルを参照してください。

いくつかのアドバイス: KSテストは、この目的のために特別に構築された他のテストよりも、正常性をテストするのにかなり強力ではありません。それらの中で最高のものはおそらくシャピロ・ウィルク検定ですが、一般的に使用され、ほぼ同じくらい強力なものはシャピロ・フランシアアンダーソン・ダーリングです。

このプロットは、6つの正規分布の変量の10,000サンプルでのコルモゴロフ-スミルノフ検定統計量の分布を示しています。

KS統計のヒストグラム

α=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

検定統計量は0.5(臨界値よりも小さい)です。このようなサンプルは、正常性の他のテストを使用して拒否されます。


10
私はsigを提供するディストリビューションだと思います。N = 6の結果は非常に正常ではないので、飛ぶ色でIOTTに合格します。これが眼間外傷テストです。それはあなたの目に当たります。
ピーターフロム-モニカの復職

2
N=6N=6

楽しみのために、set.seed(3833782)x <-runif(6)ks.test(x、pnorm)を試しました。これはp = .04で重要でした。それが起こることができるように
ピーターFlom -復活モニカ

4
@ピーターグッド!正規性のKSテストは、均一なサンプルを拒否しました。それが希望です。
whuber

3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)を生成しp-value = 0.0003255ます。もちろん、私はこれを見つける前に140の種でそれを試さなければなりません
でした

20

@whuberがコメントで尋ねたように、私のカテゴリNOの検証。編集:1サンプルksテストが実際に誤って使用されているため、shapiroテストを使用します。Whuberは正しい:Kolmogorov-Smirnov検定を正しく使用するには、分布パラメーターを指定する必要があり、データからそれらを抽出しないでください。ただし、これは1サンプルKSテストのSPSSなどの統計パッケージで行われます。

分布について何かを言おうとしますが、t検定を適用できるかどうかを確認します。そのため、このテストは、分析の基礎となる仮定を無効にするほどデータが正常から大きく逸脱しないことを確認するために行われます。したがって、タイプIエラーではなく、タイプIIエラーに関心があります。

ここで、許容できる電力の最小n(0.8など)を計算できるように、「大幅に異なる」を定義する必要があります。ディストリビューションでは、定義するのは簡単ではありません。したがって、私は質問に回答しませんでした。使用する経験則、n> 15およびn <50を除いて賢明な回答をすることはできないからです。基本的には気持ちがいいので、経験以外にその選択を守ることはできません。

しかし、6つの値のみでは、タイプIIエラーがほぼ1にバインドされることを知っています。6回の観測では、シャピロ検定は正規分布、ポアソン分布、均一分布、さらには指数分布を区別できません。タイプIIエラーがほぼ1の場合、テスト結果は無意味です。

shapiro-testによる正規性テストを説明するには:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

値の約半分が0.05より小さいのは、最後の値のみです。これも最も極端なケースです。


shapiroテストで好きなパワーを与える最小nを調べるには、次のようなシミュレーションを実行できます。

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

これにより、次のような消費電力分析が得られます。

ここに画像の説明を入力してください

ここから、ケースの80%で指数分布と正規分布を区別するには、おおよそ最低20の値が必要であると結論付けています。

コードプロット:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)

2
@whuber:その頭の仮説検定の論理に関して:どちらの場合、対立仮説に興味がありますか?私が見たこれらのテストのすべてのアプリケーションで、人々はnullの確認に興味があります。私のデータは正規分布と大きく異なりません。だからこそ、タイプIIエラーを強調します。
ジョリスメイズ

4
n5

4
n=8n

3
@whuber:異なることに同意する必要があります。私は完全にEPA(そして間違いなくFDA)ガイドラインのファンではありません。私はこれが一度も頻繁に悪用されて、その有用性をまだ信じていないのを見てきました。チャンスは奇妙なものであり、非常に予測不可能なケースは6つだけです。たった6つの観察に基づいたPDFのような複雑な機能について何かを言うことができるとは思わない。YMMV
ヨリスMeys

5
@ImAlso t検定は、かなり対称的な場合に多くの非正規性を許容できますが、あまり多くの非対称性は許容できません。(実際、正規性の歪度検定は、実際にはKS検定よりもOPの方が良い選択肢かもしれません。この理由からです。)これは、適合度検定と他の仮説検定の最大の違いの1つを示しています。考えられる代替のスペースとGoFテストは、特定のものに対しては良い傾向がありますが、他のものに対してはそうではありません。すべての選択肢に対してうまく機能させることはできません。
whuber

-2

ここで提起された質問には、サンプルサイズ6で正規性チェックが必要であるという誤解があります。ここでの主な目的は、「コードバージョンAで費やされた時間がコードバージョンBで費やされた時間と異なるかどうかをテストすることです(これは私のH1)です」。「異なる」という言葉が使用されている場合、それはワンテールテストですか?ただし、正規性のテストは2番目のステップです。最初のステップは、パワーが非常に悪い場合に、所定のサンプルサイズのテストの所定の(1-β)パワーの妥当性をチェックすることです。正常性条件のチェックは、パラメトリックテストまたは非パラメトリックテストのどちらを行うかを決定するのに役立ちます。サンプルサイズに十分な検出力がない場合、正常性のテストを検討する必要があります。


(-1)これは非常に不明確です。質問に答える方法については、このページをお読みください:stats.stackexchange.com/help/how-to-answer
mkt-Reinstate Monica
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.