回答:
t検定の正規性の仮定
特定のサイズのさまざまなサンプルを取得できる大規模な母集団を考えます。(特定の調査では、通常、これらのサンプルの1つだけを収集します。)
t検定では、さまざまなサンプルの平均が正規分布していると想定しています。人口が正規分布しているとは想定していません。
中心極限定理により、有限分散の母集団からのサンプルの平均は、母集団の分布に関係なく正規分布に近づきます。経験則では、サンプルサイズが少なくとも20または30である限り、サンプル平均は基本的に正規分布であるとされています。小さいサイズのサンプルでt検定を有効にするには、母集団分布はほぼ正規でなければなりません。
t検定は、非正規分布の小さなサンプルでは無効ですが、非正規分布の大きなサンプルでは有効です。
非正規分布からの小さなサンプル
マイケルが以下で指摘するように、正規性を近似する平均値の分布に必要なサンプルサイズは、母集団の非正規性の程度に依存します。ほぼ正規分布の場合、非常に非正規分布ほど大きなサンプルは必要ありません。
これを理解するためにRで実行できるいくつかのシミュレーションを次に示します。まず、ここにいくつかの人口分布があります。
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
次に、人口分布からのサンプルのシミュレーションがあります。これらの各行で、「10」はサンプルサイズ、「100」はサンプル数、その後の関数は母集団分布を指定します。サンプル平均のヒストグラムを作成します。
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
t検定を有効にするには、これらのヒストグラムが正常である必要があります。
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
t検定のユーティリティ
私が伝えたばかりの知識はすべていくらか時代遅れであることに注意しなければなりません。コンピューターができたので、t検定よりもうまくやることができます。フランクが指摘するように、t検定を実行するように教えられた場所であればどこでもWilcoxonテストを使用したいと思うでしょう。
中心極限定理は、この文脈で考えられるほど有用ではありません。まず、誰かがすでに指摘したように、現在のサンプルサイズが「十分に大きい」かどうかはわかりません。第二に、CLTはタイプIIエラーよりも望ましいタイプIエラーを達成することです。言い換えれば、t検定は、非競争的な力の観点からすることができます。そのため、ウィルコクソン検定はとても人気があります。正規性が保持されている場合、t検定と同じ95%の効率です。正規性が成り立たない場合、t検定よりもarbitrarily意的に効率的です。
t検定の堅牢性に関する質問に対する私の以前の回答を参照してください。
特に、onlinestatsbookアプレットをいじることをお勧めします。
以下の画像は、次のシナリオに基づいています。
得られたシミュレーションでは、タイプIエラーが5%発生する代わりに、タイプIエラーが4.5%しか発生しなかったことが示唆されています。
この堅牢性を考慮するかどうかは、あなたの視点次第です。
編集:当たり前、コメントで@whuberのキャッチごとに、私が与えた例は平均ゼロを持っていなかったので、平均ゼロのテストはタイプIレートとは何の関係もありません。
宝くじの例ではサンプルの標準偏差がゼロであることが多いため、t検定はチョークします。代わりに、GoergのLambert W x Gaussian分布を使用したコード例を示します。ここで使用している分布のスキューは約1355です。
#hey look! I'm learning R!
library(LambertW)
Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)
test_ttest <- function(sampsize) {
samp <- LW.Gauss$rY(params)(n=sampsize)
tval <- t.test(samp, mu = moms$mean)
return(tval$p.value)
}
#to replicate randomness
set.seed(1)
pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
p vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
このコードは、さまざまなサンプルサイズの公称0.05レベルでの経験的棄却率を示します。サイズ50のサンプルの場合、経験率は0.40(!)です。サンプルサイズ250、0.29; サンプルサイズ1000、0.21の場合; サンプルサイズ2000の場合、0.18。明らかに、1サンプルのt検定には歪みがあります。
中心極限定理は、t統計量の分子が漸近的に正常であることを(必要な条件下で)確立します。t統計には分母もあります。t分布を得るには、分母が独立しており、カイ二乗平方根がそのdfである必要があります。
そして、私たちはそれが独立していないことを知っています(それは通常の特徴です!)
Slutskyの定理とCLTを組み合わせると、t統計が漸近的に正常であることがわかります(必ずしも非常に有用なレートであるとは限りません)。
非正規性がある場合にt統計がほぼt分布であると、どの定理が確立しますか?(もちろん、最終的にはt-も通常に近くなりますが、通常の近似を使用するよりも、別の近似への近似の方が優れていると想定しています...)
はい、中央極限定理はこれが真実であることを示しています。極端にヘビーテールの特性を回避する限り、中程度から大規模のサンプルでは非正規性は問題ありません。
役立つレビューペーパーを次に示します。
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
ウィルコクソン検定(他の人が言及)は、代替が元の分布の位置シフトでない場合、ひどい力を持つことができます。さらに、分布間の差異を測定する方法は推移的ではありません。
代替としてのウィルコクソン-マン-ホイットニー検定の使用について調査中の論文ウィルコクソン-マン-ホイットニー検定をお勧めします
平均値または中央値の検定として、ウィルコクソン・マン・ホイットニー(WMW)検定は、純粋なシフトモデルからの偏差に対して非常にロバストでない場合があります。
これらは、論文の著者の推奨事項です。
ランク変換は、2つのサンプルの平均、標準偏差、歪度を異なる方法で変更できます。ランク変換が有益な効果を達成することが保証される唯一の状況は、分布が同一であり、サンプルサイズが等しい場合です。これらのかなり厳密な仮定からの逸脱については、サンプルモーメントに対するランク変換の影響は予測できません。この論文のシミュレーション研究では、WMWテストをFligner–Policelloテスト(FP)、Brunner–Munzelテスト(BM)、2サンプルTテスト(T)、Welch Uテスト(U)と比較しました。ランク(RU)でのウェルチUテスト。4つのランクベースのテスト(WMW、FP、BM、およびRU)は同様に実行されましたが、BMテストは他のテストよりも少し優れていることがよくありました。サンプルサイズが等しい場合、パラメトリック検定(TおよびU)は、平均が等しいという帰無仮説の下ではランクベースの検定よりも優れていましたが、中央値が等しいという帰無仮説の下ではありませんでした。サンプルサイズが等しくない場合、BM、RU、およびUテストが最高のパフォーマンスを発揮しました。いくつかの設定では、母集団の特性のわずかな変化が、テストのパフォーマンスに大きな変化をもたらしました。要約すると、2つの分布の形状とスケールが等しい場合を除き、大きなサンプルのWMW近似テストは、2つの母集団の平均値または中央値を比較する方法としては不十分です。この問題は、ランクに対する正確なWMWテスト、FPテスト、BMテスト、およびウェルチUテストにもさまざまな程度で適用されるようです。WMWテストを使用する場合、著者は、ランク付けされたサンプルの特性について、歪度と分散の不均一性の兆候について徹底的に調査することを推奨します。