N> 50の場合の非正常のT検定?


77

ずっと前に、2サンプルのT検定を使用するには正規分布が必要であることを学びました。今日、同僚は、N> 50の正規分布は必要ないことを知ったと言った。本当?

真の場合、それは中心極限定理によるものですか?


3
関連質問に非常に Glen_bのことで良い答えstats.stackexchange.com/questions/121852/...
ティム

回答:


82

t検定の正規性の仮定

特定のサイズのさまざまなサンプルを取得できる大規模な母集団を考えます。(特定の調査では、通常、これらのサンプルの1つだけを収集します。)

t検定では、さまざまなサンプルの平均が正規分布していると想定しています。人口が正規分布しているとは想定していません。

中心極限定理により、有限分散の母集団からのサンプルの平均は、母集団の分布に関係なく正規分布に近づきます。経験則では、サンプルサイズが少なくとも20または30である限り、サンプル平均は基本的に正規分布であるとされています。小さいサイズのサンプルでt検定を有効にするには、母集団分布はほぼ正規でなければなりません。

t検定は、非正規分布の小さなサンプルでは無効ですが、非正規分布の大きなサンプルでは有効です。

非正規分布からの小さなサンプル

マイケルが以下で指摘するように、正規性を近似する平均値の分布に必要なサンプルサイズは、母集団の非正規性の程度に依存します。ほぼ正規分布の場合、非常に非正規分布ほど大きなサンプルは必要ありません。

これを理解するためにRで実行できるいくつかのシミュレーションを次に示します。まず、ここにいくつかの人口分布があります。

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

次に、人口分布からのサンプルのシミュレーションがあります。これらの各行で、「10」はサンプルサイズ、「100」はサンプル数、その後の関数は母集団分布を指定します。サンプル平均のヒストグラムを作成します。

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

t検定を有効にするには、これらのヒストグラムが正常である必要があります。

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

t検定のユーティリティ

私が伝えたばかりの知識はすべていくらか時代遅れであることに注意しなければなりません。コンピューターができたので、t検定よりもうまくやることができます。フランクが指摘するように、t検定を実行するように教えられた場所であればどこでもWilcoxonテストを使用したいと思うでしょう。


7
良い説明(+1)。ただし、正規分布に近似する平均値の分布に必要なサンプルサイズは、母集団の非正規性の程度に依存すると付け加えます。大規模なサンプルの場合、分布に関する仮定を行わない順列検定よりもt検定を好む理由はありません。
マイケルルー

2
+1ですが、私が知る限り、t検定は正規性から中程度の逸脱に対してかなり抵抗力があります。また、興味深い関連ディスカッション:stats.stackexchange.com/questions/2492/…–
nico

4
良い答えですが、見落とした細かい点が1つあります。データの分布には有限分散が必要です。T検定は、2つのコーシー分布(または2自由度の生徒)の位置の違いを比較するのには絶望的です。「ロバストではない」からではなく、これらの分布については平均を超える追加の関連情報があるためですそして、t検定が捨てる標準偏差。
確率が

2
これに加えて、t検定では、調査対象のパラメーターの信頼区間も当然得られます。(質問に直接対処する最初の2つの段落のため、まだ賛成ですが、3番目の質問には強く反対します)
エリック14年

6
t検定では、母集団の正常性が必要です。これは、t統計がt-Student分布を持つために必要な仮定です。正規母集団がない場合、t統計量を、カイ二乗変数の根をその自由度で除算した標準除算変数として表すことはできません。たぶんあなたが言おうとしているのは、歪度が大きすぎない、または大きなサンプルのようないくつかの条件が真であれば、母集団が正常でなくてもテストはまだ有効であるということです。
トネロイ

44

中心極限定理は、この文脈で考えられるほど有用ではありません。まず、誰かがすでに指摘したように、現在のサンプルサイズが「十分に大きい」かどうかはわかりません。第二に、CLTはタイプIIエラーよりも望ましいタイプIエラーを達成することです。言い換えれば、t検定は、非競争的な力の観点からすることができます。そのため、ウィルコクソン検定はとても人気があります。正規性が保持されている場合、t検定と同じ95%の効率です。正規性が成り立たない場合、t検定よりもarbitrarily意的に効率的です。


7
(+1)このサイトへようこそ、あなたが見つけたことがうれしいです。ここでのご参加をお待ちしております。
枢機

4
(+1)ウィルコクソンについての良い点。
whuberの

18

t検定の堅牢性に関する質問に対する私の以前の回答を参照してください。

特に、onlinestatsbookアプレットをいじることをお勧めします

以下の画像は、次のシナリオに基づいています。

  • 帰無仮説は真
  • かなり厳しい歪度
  • 両方のグループで同じ分布
  • 両方のグループで同じ分散
  • グループ5ごとのサンプルサイズ(つまり、質問ごとに50未満)
  • 10,000件のシミュレーションボタンを約100回押して、最大100万件のシミュレーションを取得しました。

得られたシミュレーションでは、タイプIエラーが5%発生する代わりに、タイプIエラーが4.5%しか発生しなかったことが示唆されています。

この堅牢性を考慮するかどうかは、あなたの視点次第です。

ここに画像の説明を入力してください


4
+1良い点。ただし、歪んだ代替案を使用したt検定のパワーは、大幅に低下する可能性があります(エフェクトのサイズが非常に大きい場合でも、本質的にゼロになるまで)。
whuber

6

h=0.24999

p=1041p

編集:当たり前、コメントで@whuberのキャッチごとに、私が与えた例は平均ゼロを持っていなかったので、平均ゼロのテストはタイプIレートとは何の関係もありません。

宝くじの例ではサンプルの標準偏差がゼロであることが多いため、t検定はチョークします。代わりに、GoergのLambert W x Gaussian分布を使用したコード例を示します。ここで使用している分布のスキューは約1355です。

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

このコードは、さまざまなサンプルサイズの公称0.05レベルでの経験的棄却率を示します。サイズ50のサンプルの場合、経験率は0.40(!)です。サンプルサイズ250、0.29; サンプルサイズ1000、0.21の場合; サンプルサイズ2000の場合、0.18。明らかに、1サンプルのt検定には歪みがあります。


p=0

1

中心極限定理は、t統計量の分子が漸近的に正常であることを(必要な条件下で)確立します。t統計には分母もあります。t分布を得るには、分母が独立しており、カイ二乗平方根がそのdfである必要があります。

そして、私たちそれが独立していないことを知っています(それは通常の特徴です!)

Slutskyの定理とCLTを組み合わせると、t統計が漸近的に正常であることがわかります(必ずしも非常に有用なレートであるとは限りません)。

非正規性がある場合にt統計がほぼt分布であると、どの定理が確立しますか?(もちろん、最終的にはt-も通常に近くなりますが、通常の近似を使用するよりも、別の近似への近似の方が優れていると想定しています...)


t

n


3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)

1
残念ながら、最終的にt分布になる場合は、無相関と独立の区別が重要です。
Glen_b

0

はい、中央極限定理はこれが真実であることを示しています。極端にヘビーテールの特性を回避する限り、中程度から大規模のサンプルでは非正規性は問題ありません。

役立つレビューペーパーを次に示します。

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

ウィルコクソン検定(他の人が言及)は、代替が元の分布の位置シフトでない場合、ひどい力を持つことができます。さらに、分布間の差異を測定する方法は推移的ではありません。


ウィルコクソンに関する興味深い点。ただし、t検定にも同様の問題があります。分散の増加を伴うシフトを検出するのは特に困難です。推移性についてのビットは、現在の文脈では主に好奇心のようです。元の仮説検定またはその解釈にどのように関連するかを確認することは困難です。(ただし、ANOVAまたは多重比較設定では
非推移

不等分散t検定(一部のソフトウェアではデフォルトです)には、不均一分散の問題はありません。
ゲスト

推移性について; サンプル平均、または平均の差(t検定アプローチを使用するのが自然です)を報告することは、他の母集団からサンプリングするときに読者が考慮できることを提供します。ウィルコクソン検定の非推移性は、このアプローチにはそのような類似物がないことを意味します。データのランクを使用することは非常に限られたアプローチです。
ゲスト

1
(1)Satterthwaite-Welch(不等分散)テストは、私が言及した電力損失を克服するものではありません(少しは役立ちますが)。(2)ランクの使用を「制限付き」として特徴づけるのは極端だと思います。これは、ランクを使用すると効果的との両方である方法を示しています。彼の返事で、@FrankハレルはWilcoxon検定は、多くの設定で高効率を維持する方法を示す研究に言及していた、より柔軟な t検定に比べ、ないより限定されました。
whuber

(1)いいえ。ただし、中程度から大規模のサンプルで、タイプIの正しいエラー率が得られます(2)ありがとう。Wilcoxonでt検定を使用すると、検定と信頼区間の使用のギャップを埋めるのがはるかに簡単になります。テストを行いたいだけで、研究の2つのグループを超えて見たくない場合、もちろんウィルコクソンはうまく機能する状況があります。しかし、多くの場合、テストだけを行うのではなく、ユーザーが結果を他の状況に一般化できるようにしたいと考えています。ウィルコクソン検定は役に立ちません。
ゲスト

0

代替としてのウィルコクソン-マン-ホイットニー検定の使用について調査中の論文ウィルコクソン-マン-ホイットニー検定をお勧めします

平均値または中央値の検定として、ウィルコクソン・マン・ホイットニー(WMW)検定は、純粋なシフトモデルからの偏差に対して非常にロバストでない場合があります。

これらは、論文の著者の推奨事項です。

ランク変換は、2つのサンプルの平均、標準偏差、歪度を異なる方法で変更できます。ランク変換が有益な効果を達成することが保証される唯一の状況は、分布が同一であり、サンプルサイズが等しい場合です。これらのかなり厳密な仮定からの逸脱については、サンプルモーメントに対するランク変換の影響は予測できません。この論文のシミュレーション研究では、WMWテストをFligner–Policelloテスト(FP)、Brunner–Munzelテスト(BM)、2サンプルTテスト(T)、Welch Uテスト(U)と比較しました。ランク(RU)でのウェルチUテスト。4つのランクベースのテスト(WMW、FP、BM、およびRU)は同様に実行されましたが、BMテストは他のテストよりも少し優れていることがよくありました。サンプルサイズが等しい場合、パラメトリック検定(TおよびU)は、平均が等しいという帰無仮説の下ではランクベースの検定よりも優れていましたが、中央値が等しいという帰無仮説の下ではありませんでした。サンプルサイズが等しくない場合、BM、RU、およびUテストが最高のパフォーマンスを発揮しました。いくつかの設定では、母集団の特性のわずかな変化が、テストのパフォーマンスに大きな変化をもたらしました。要約すると、2つの分布の形状とスケールが等しい場合を除き、大きなサンプルのWMW近似テストは、2つの母集団の平均値または中央値を比較する方法としては不十分です。この問題は、ランクに対する正確なWMWテスト、FPテスト、BMテスト、およびウェルチUテストにもさまざまな程度で適用されるようです。WMWテストを使用する場合、著者は、ランク付けされたサンプルの特性について、歪度と分散の不均一性の兆候について徹底的に調査することを推奨します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.