t検定を有効にするために必要な最小サンプルサイズはありますか?


71

現在、準実験的な研究論文に取り組んでいます。選択したエリア内の人口が少ないため、サンプルサイズは15のみで、基準に適合するのは15のみです。15は、t検定とF検定で計算する最小サンプルサイズですか?もしそうなら、この小さなサンプルサイズをサポートする記事や本はどこで入手できますか?

この論文は先週の月曜日にすでに弁護されており、パネルの1人は、私のサンプルサイズが小さすぎるため、支持する参考文献を求めました。彼は、少なくとも40人の回答者がいるべきだったと言った。


4
仮定が成り立つ場合、サンプルサイズは15よりも大幅に小さくなります。t分布の妥当性が、彼がより大きなサンプルを提案した唯一の理由でしたか?
Glen_b

明確にするために、1種類のサンプル、2種類のサンプル、2種類のサンプルのどのt検定を実行していますか。
ジェロミーアングリム

26
歴史的に、t検定の最初のデモンストレーション(「学生」の1908年の論文)は、サイズ4のサンプルサイズへの適用でした。確かに、小さなサンプルで改善された結果を得ることは、テストの名声です:サンプルサイズが40程度に達すると、t検定は、19世紀を通して研究者が適用していたz検定と実質的に変わりません。このメンバーの最新版をパネルメンバーyork.ac.uk/depts/maths/histstat/student.pdfで共有できます。セクションVI、pp 14-18で調査を指摘します。
whuber

10
ただし、学生が高品質のデータ(化学実験データ、実験、準実験ではない)を持っているため、4などの小さなサンプルサイズが機能するという事実を熟考する必要があります。あなたの主な問題は、サンプルサイズではなく、代表性にあります。あなたのデータが何かを代表していることをどうやって知るのですか?
kjetil bハルヴォルセン

10
@CzarinaFrancoise 10歳未満の科学を制限するのはなぜですか?
RioRaider

回答:


56

t検定を有効にするための最小サンプルサイズはありません。有効性には、検定統計量の仮定がほぼ保持されることが必要です。これらの仮定は、データがiid正常(またはほぼ正常)であるという1つのサンプルの場合であり、帰無仮説と未知であるがサンプルから推定された分散の下で平均0です。2つのサンプルの場合、両方のサンプルは互いに独立しており、各サンプルはiid正規変数で構成され、2つのサンプルは同じ仮説を持ち、帰無仮説の下で共通の未知の分散を持ちます。プールされた分散の推定値が統計に使用されます。

一つの試料の場合には、帰無仮説下での分布は、中心となるTn-1の自由度。サンプルサイズの2つのサンプルの場合にはNmは必ずしも検定統計量のヌル分布が等しくないTN + M-2自由度。低いサンプルサイズに起因する増加した変動性は、低いサンプルサイズに対応する自由度が低い場合により重いテールをもつ分布で説明されます。したがって、任意のサンプルサイズ(少なくとも、サイズ2以上)に対して特定の有意水準を持つために、検定統計量の重要な値を見つけることができます。

サンプルサイズが小さい場合の問題は、テストの能力に関するものです。レビューアは、グループごとに15個のサンプルサイズが、2つの平均間のデルタまたは1つのサンプル問題の絶対値の平均より大きいデルタなどの有意な差を検出するのに十分なサンプルサイズではないと感じたかもしれません。40を必要とする場合、特定のデルタで特定のパワーを指定する必要があります。これは、40に等しいが40以上のnで達成されます。

t検定を実行するには、サンプルが分散を推定するのに十分な大きさである必要があることを付け加えます。


2
しかし、重要な注意点は、サンプルサイズが十分に大きければ、データがほぼ正常でなくても、テスト有効であることです。正当化は(Slutskyの定理+ t分布が正規に近づいている)について少しラウンドであり、z検定で使用する正当化は、小さなサンプルではより保守的であるというだけです。ただし、非正規性が疑われる場合は、大きなサンプルを使用すると助かります。
クリフAB

1
@CliffAB「有効」とは、「n \ to \ inftyの範囲内で、ほぼ適切な有意水準を持っている」という意味です。しかし、一般に、人々はタイプIのエラー率よりも気にかけます(特に、サンプルのサイズよりも大きい可能性のあるサンプルでかなり近い場合のみ)。漸近相対効率は確かに非常に劣ることがあるので、大きな試料中の小さな効果に対するパワーは、タイプIエラー率が、それは...どうあるべきかになったとしても、代替の選択肢に比べて非常に悪いかもしれ
Glen_b

33

彼に敬意を払って、彼は何について話しているのかわかりません。t検定は、小さなサンプルを扱うために設計されました。実際には最小値はありません(1サンプルt検定、IDKの場合は最小3と言えるかもしれません)が、小さなサンプルでの適切なパワーに関する懸念があります。あなたの場合のように、可能なサンプルサイズが非常に制限されているとき、妥協力分析の背後にあるアイデアについて読むことに興味があるかもしれません。

少量のサンプルでt検定を使用できることを証明するリファレンスについては、私はそれを知りません。なぜ誰もがそれを証明しようとするのでしょうか?アイデアは馬鹿げています。


6
+1(あなたとマイケルに)。興味深いことに、一連の仮定を立てる意思がある場合、推論を行うために2つの観測さえ必要ありません!
アンディW

4
小さいサンプルでt検定を行う理由は、標準偏差が不明な場合にサンプルが正常であっても、一般的なことは標準偏差のサンプル推定値で割って正規化することです。推定値が大きいサンプルでは、​​母集団の標準偏差に十分に近いため、検定統計量はほぼ標準正常になりますが、小さいサンプルでは、​​通常よりも裾が大きくなります。
マイケルチャーニック

5
n-1の自由度を持つt分布は、帰無仮説の下での任意のサンプルサイズnの正確な分布であり、小さなサンプルでは、​​それをうまく近似しない​​正規の代わりに使用する必要があります。gungと私が述べたサンプルサイズの本当の問題は力です。15で十分だと審判と議論したい場合は、差を意味のあるものと呼ぶのに必要な大きさ(前述のデルタ)を特定する必要があります。 。
マイケルチャーニック

2
@CzarinaFrancoise n> = 30については、stats.stackexchange.com / questions / 2541
StéphaneLaurent

2
@gung Studentのオリジナル(1908!)論文は、小さなサンプルでt検定を使用できることを証明しています。(これについての詳細は、元の質問への私の拡張コメントを参照してください。)
whuber

30

既存の回答で述べたように、サンプルサイズが小さい場合の主な問題は、統計的検出力が低いことです。許容される統計的検出力については、さまざまな経験則があります。80%の統計的検出力は妥当であると言う人もいますが、最終的にはより多くの方が優れています。一般に、参加者を増やすコストと統計力を高めるメリットとの間にはトレードオフがあります。

Rの単純な関数を使用して、テスト時の統計的検出力を評価できpower.t.testます。

次のコードは、15のサンプルサイズのための統計的検出力を提供し、1標本t検定、標準、3つの異なるエフェクトサイズと呼ばれることもあるされている0.2の、0.5、0.8それぞれ小、中、大の効果。α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

したがって、母集団効果のサイズが「小」または「中」の場合、統計的検出力が低い(つまり、それぞれ11%と44%)ことがわかります。ただし、母集団の効果の大きさが大きい場合、「合理的な」力(つまり、82%)と呼ばれるものがあります。

Quick-r Webサイトでは、Rを使用した電力解析に関する詳細情報を提供しています。


素敵な答え!G * Powerと呼ばれる統計的検出力を計算するための優れたソフトウェアもあります。
エンリケ

7

2サンプルのt検定は、2つのサンプルが同じ分散をもつ正規分布からの独立した単純なランダムサンプルであり、各サンプルサイズが少なくとも2である場合に有効です(母分散を推定できるように)。テストの有効性の問題とは無関係です。検出したい効果のサイズに応じて、小さなサンプルサイズは不注意かもしれませんが、小さなサンプルサイズはテストを無効にしません。また、任意のサンプルサイズで、親分布が正規の場合、平均のサンプリング分布は正規であることに注意してください。もちろん、パラメータのより正確な推定値を提供するため、サンプルサイズが大きいほど常に優れています。中央極限定理は、サンプル平均が個々の値よりも正規分布していることを示していますが、CasellaとBergerが指摘したように、特定のケースについては、正常性へのアプローチ率をチェックする必要があるため、有用性は限られています。経験則に頼るのは賢明ではありません。報告されたRand Wilcoxの本を参照してください。


5

t分布が小さなサンプルサイズを考慮しているのは事実ですが、あなたが持っている情報が比較的小さなサンプルしかない場合、レフェリーは母集団が正常に分布していることを確認することの難しさを考えていたと思いますか?サンプルは、サイズ15のサンプルでは大きな問題ではないかもしれません。サンプルは、漠然と正規分布している兆候を示すのに十分な大きさだからです。これが本当であれば、うまくいけば人口はどこかに中心極限定理と組み合わせて、あまりにもノーマルと近くにあり、それはあなたに行儀良く十分にあるサンプルの手段を与えるべきです。

しかし、外部情報や機械的理解によって母集団の正常性を確立できない限り、小さなサンプル(サイズ4など)にt検定を使用することをお勧めしますか?サイズ4のサンプルには、人口分布の形状の手がかりを得るのに十分な情報がどこにもありません。


5

Sauro、J。、およびLewis、JR(2016)のpp.254-256から、以下を考慮してください。ユーザーエクスペリエンスの定量化:ユーザーリサーチの実用統計、第2版 マサチューセッツ州ケンブリッジ:Morgan-Kaufmann(https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/をご覧ください)。


少なくとも30人のユーザーでテストする必要がありますか?

一方では

おそらく、統計の入門クラスを受講した(またはそのようなクラスを受講した人を知っている)私たちのほとんどは、平均を推定または比較するために、サンプルサイズは少なくとも30でなければならないという経験則を聞いたことがあるでしょう。サンプルサイズが大きくなると、基礎となる分布の正規性に関係なく、平均の分布はますます正規化されます。いくつかのシミュレーション研究では、さまざまな分布(すべてではない— Bradley、1978を参照)について、n = 30のときに平均の分布がほぼ正常になることが示されています。

もう1つの考慮事項は、zスコアでは自由度を使用する必要がないため、tスコアではなくzスコアを使用するほうがわずかに簡単であることです。表9.1と図9.2に示すように、自由度が約30になるまでに、tの値はzの値にかなり近くなります。その結果、少量のサンプル統計を必要とする少量のサンプルを扱う必要がないと感じることがあります(Cohen、1990)。...

一方

通常、多くのタイプのユーザー調査(モデレートユーザビリティテストなど)でサンプルのコストが高い場合、それが推定であることを理解して、必要なサンプルサイズをできるだけ正確に推定することが重要です。与えられた一連の状況で、30が正確に正しいサンプルである可能性は非常に低いです。サンプルサイズの推定に関する章で示したように、より適切なアプローチは、統計検定の有意水準を計算するための式を取得し、代数を使用してnを解き、サンプルサイズの推定式に変換することです。これらの式は、必要なサンプルサイズを推定するために、特定の状況で知っておく必要のあるものまたは推定する必要があるものに関する具体的なガイダンスを提供します。

(z分布ではなく)t分布でも、少なくとも30のサンプルサイズが必要であるという考えは、分布の開発の歴史と矛盾しています。1899年、化学と数学の学位を取得したオックスフォードのニューカレッジを最近卒業したウィリアムS.ゴセットは、ギネス醸造所に入社した最初の科学者の1人になりました。「当時の巨人と比較して、彼はほとんど発表しませんでしたが、彼の貢献は非常に重要です。…醸造プロセスの性質は、温度と成分が変動するため、長期間にわたって大量のサンプルを採取することはできません」(Cowles、1989、p。108–109)。

これは、ゴセットが仕事でZスコアを使用できなかったことを意味しました。小さなサンプルではうまく機能しません。小さなサンプルを使用した統計的テストのz分布の欠陥を分析した後、ギネスの出版禁止ポリシーにより「学生」という仮名で公開されたtテーブルを作成するために、自由度の関数として必要な調整を行いました従業員による(Salsburg、2001)。テーブルの公開に至った作業で、ゴセットはモンテカルロシミュレーションの初期バージョンを実行しました(Stigler、1999)。彼は犯罪者の身体的測定値を記した3000枚のカードを用意し、それらをシャッフルし、サイズ4の750のグループ(30をはるかに下回るサンプルサイズ)に配りました。

推奨事項

この論争は、第5章で説明した「5つで十分」と「8つで十分ではない」という議論に似ていますが、形成的研究ではなく総括的な研究に適用されます。どの調査でも、テストするユーザーの数は、テストの目的と収集する予定のデータの種類によって異なります。「マジックナンバー」30には経験的根拠がありますが、私たちの意見では、非常に弱いです。このサンプルの多数のサンプルからわかるように、サンプルサイズが30に等しくない場合があります(場合によってはそれよりも少なく、場合によっては大きくなります)。この経験則はあまり重視していません。総括調査のサンプルサイズの章で説明したように、調査の適切なサンプルサイズは、分布の種類、データの予想される変動性、望ましい信頼度と検出力のレベル、

図9違いがないと主張することは重要です)サンプルサイズが小さい場合、信頼区間は、より大きなサンプルで得られるものよりもはるかに広くなります。ただし、5自由度を超える自由度を扱うと、zの値とtの値の絶対差はほとんどなくなります。tからzへのアプローチの観点からは、10自由度を超えるゲインはほとんどありません。

z分布よりもt分布を使用する方がそれほど複雑ではありません(自由度に適切な値を使用する必要があるだけです)。また、t分布の開発の理由は小さなサンプルの分析を可能にします。これは、ビール醸造の科学と実践からユーザビリティの実践者が利益を得るあまり明白でない方法の1つにすぎません。統計学の歴史家は、ゴセットのスチューデントのt検定の出版物を画期的な出来事と広く考えています(Box、1984; Cowles、1989; Stigler、1999)。ゴセットは、tテーブルの初期のコピーを含むロナルドA.フィッシャー(現代統計学の父親の1人)への手紙で、「おそらくあなたはそれらを使用する唯一の男だ」と書いた(Box、1978)。ゴセットは多くのことを正しかったが、彼は確かに間違っていた。

参考文献

Box、GEP(1984)。統計の開発における実践の重要性。Technometrics、26(1)、1-8。

Box、JF(1978)。フィッシャー、科学者の生活。ニューヨーク、NY:ジョン・ワイリー。

ブラッドリー、JV(1978)。堅牢性?British Journal of Mathematical and Statistical Psychology、31、144-152。

コーエン、J。(1990)。(今のところ)私が学んだこと。アメリカの心理学者、45(12)、1304-1312。

Cowles、M.(1989)。心理学の統計:歴史的展望。ニュージャージー州ヒルズデール:ローレンス・エルバウム。

Salsburg、D.(2001)。お茶を味わう女性:20世紀の統計はどのように科学に革命をもたらしましたか。ニューヨーク、NY:WHフリーマン。

スティグラー、SM(1999)。表の統計:統計の概念と方法の歴史。マサチューセッツ州ケンブリッジ:ハーバード大学出版局。


3

Czarinaは、彼女のパラメトリックt検定の結果とブートストラップt検定によって得られた結果を比較するのに興味があるかもしれません。Stata 13/1の次のコードは、不等分散(パラメトリックt検定:p値= 0.1493、ブートストラップt検定:p値= 0.1543)の2サンプルt検定に関する架空の例を模倣しています。

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

t検定の使用を正当化するには、2つの異なる方法があります。

  • データは通常配布され、グループごとに少なくとも2つのサンプルがあります
  • 各グループに大きなサンプルサイズがある

場合はいずれかのこれらの例は、保持し、t検定は、有効なテストと考えられています。したがって、データが正常に分布していると仮定する場合(小さなサンプルを収集する多くの研究者がそうであるように)、心配する必要はありません。

ただし、特にデータが歪んでいることがわかっている場合、結果を得るためにこの仮定に依存していることに合理的に反対する人がいるかもしれません。そして、有効な推論に必要なサンプルサイズの問題は非常に合理的なものです。

必要なサンプルサイズの大きさについては、残念ながらそのための確かな答えはありません。データの歪みが大きいほど、近似を合理的にするために必要なサンプルサイズが大きくなります。通常、グループごとに15〜20は妥当な大規模と見なされますが、ほとんどの経験則と同様に、反例があります。これらのテストが適切になる前の約1億回の観測。


1

Boostrapped t検定の有用性については同意します。また、比較として、Kruschkeがhttp://www.indiana.edu/~kruschke/BEST/BEST.pdfで提供しているベイジアン法を参照することをお勧めします。一般的に、「被験者数」の質問。解決しようとしている問題に関して、重要な効果の大きさがどのようなものであるかを手元に把握していない限り、答えることはできません。つまり、たとえば、テストが新薬の有効性に関する仮説研究である場合、効果サイズは、米国食品医薬品局の旧薬と比較して新薬を正当化するために必要な最小サイズである可能性があります。

これや他の多くの議論で奇妙なのは、ガウス分布のように、一部のデータが単に理論的な分布を持っていると仮定する大々的な意欲です。最初に、小さなサンプルであっても確認する必要はありません。第二に、なぜ特定の理論的分布を仮定するのですか?なぜデータをそれ自体への経験的分布として受け取らないのですか?

もちろん、サンプルサイズが小さい場合、データが何らかの分布からのものであると仮定することは、分析に非常に役立ちます。しかし、ブラッドリー・エフロンを言い換えれば、そうすることで、無限の量のデータを作成したことになります。問題が適切であれば、それで問題ない場合もあります。時々そうではありません。


1

仮定が2つのサンプルケースに当てはまる限り、両方のサンプルは互いに独立しており、各サンプルはiid正規変数で構成され、2つのサンプルは同じ平均を持ち、帰無仮説の下で共通の未知の分散を持っています。

標準誤差のサターウェイト近似を利用したウェルチt検定もあります。これは、不等分散を想定した2サンプルのt検定です。

ウェルチのt検定

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.