対応のないt検定の最小サンプルサイズ


16

t検定を有効にするために必要な最小サンプルサイズを決定する「ルール」はありますか?

たとえば、2つの母集団の平均間で比較を実行する必要があります。一方の母集団には7つのデータポイントがあり、もう一方の母集団には2つのデータポイントしかありません。残念ながら、実験は非常に高価で時間がかかり、より多くのデータを取得することは現実的ではありません。

T検定を使用できますか?なぜですか?詳細を入力してください(母集団の分散と分布は不明です)。T検定を使用できない場合、ノンパラメトリック検定(Mann Whitney)を使用できますか?なぜですか?


2
この質問は同様の題材を扱っており、このページの閲覧者の興味を引くでしょう:t検定を有効にするために必要な最小サンプルサイズはありますか?
GUNG -復活モニカ

さらに小さなサンプルサイズでのテストについて説明しているこの質問も参照してください。
Glen_b -Reinstateモニカ

回答:


8

ここでは、対応のないt 検定ではなく、ノンパラメトリックMann-Whitney U検定を使用することをお勧めします。

t検定には絶対的な最小サンプルサイズはありませんが、サンプルサイズが小さくなると、テストは両方のサンプルが正規分布の母集団から抽出されるという仮定により敏感になります。このように小さなサンプル、特に2つだけのサンプルでは、​​母集団の分布が正常であることを非常に確実にする必要があります。正規分布またはその他の分布。しかし、あなたは「母集団の分散と分布は知られていない」と言っています(私の斜体)。

Mann-Whitney U検定は、分布のパラメトリック形式に関する仮定を必要とせず、2つのグループの分布が帰無仮説の下で同じであるという仮定のみを必要とします。


6
非常に小さなサンプルサイズにはお勧めできません。7個と2個のサンプルでは、​​グループの平均の差がどれほど大きくても、U検定は失敗します。例については私の答えを見てください。
AlefSin

2
@AlefSinが言うことを次に挙げます。あなたは、有効な結論を(だけではなくp値を取得)を描画することが重要である場合は、より多くのresonable仮定は、あなたが改善することができます。合理的な背景情報がある場合、ベイジアンフレームワークで分析を行うと、さらに多くの仮定を追加することもできます。
ラスマスバース14年

2
1つの問題は、このような小さなサンプルサイズでは、ウィルコクソン-マン-ホイットニーが典型的な有意水準を達成できないことです。サンプルサイズが7と2の場合、違いがどれほど明白であっても、5%レベルで有意な結果を得ることができません。(1.018,1.031,1.027,1.020,1.021,1.019,1.024)対(713.2、714.5)を検討してください-5%レベルでは重要ではありません!
グレン_b-モニカの復帰14

3
つまり、およびn 2 = 2の場合、5%テストが最初に意味をなすかどうかをおそらく検討する必要があるという非常に良い議論があります。2つのエラータイプのコストを適切に評価すると、まったく異なる選択になる可能性があります。n1=7n2=2
Glen_b -Reinstate Monica

6

(免責事項:今日はうまくタイプできません:右手が骨折しています!)

他の回答でノンパラメトリックテストを使用するというアドバイスとは反対に、サンプルサイズが非常に小さい場合、これらの方法はあまり有用ではないことを考慮する必要があります。理由は簡単に理解できます。極端に小さなサイズの研究では、大きな効果サイズが観察されない限り、グループ間の違いは確立できません。ただし、ノンパラメトリック法では、グループ間の差の大きさは考慮されません。したがって、たとえ2つのグループの差が大きくても、サンプルサイズが小さい場合、ノンパラメトリック検定は常に帰無仮説を棄却できません。

この例を考えてみましょう:2つのグループ、正規分布、同じ分散。グループ1:平均1.0、7サンプル。グループ2:平均5、2サンプル。平均値には大きな違いがあります。

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

計算されたp値は0.05556であり、帰無仮説を棄却しません(0.05)。これで、2つの平均間の距離を10倍に増やしても、同じp値が得られます。

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

ここで、t検定で同じシミュレーションを繰り返し、大きな差(平均5対1)と大きな差(平均50対1)の場合のp値を観察することをお勧めします。


5

t検定の最小サンプルサイズはありません。実際、t検定は小さなサンプル用に設計されています。テーブルが印刷された昔は、非常に小さなサンプル(dfで測定)のt検定テーブルを見ていました。

もちろん、他のテストと同様に、小さなサンプルが存在する場合、統計的に有意な影響は非常に大きくなります。


しかし、反対も問題になりますか?すなわち、たまたまサンプリングされた外れ値は、帰無仮説を誤って拒否する可能性がありますか?または、違いを検出するための低電力はより大きな問題ですか?この特定の状況では、手段の間に大きな違いが見られますが、それをどれだけ「信頼」するかわかりません。
ジョニー困惑

2
n = 2の場合、外れ値(人口の外れ値)の影響を受けやすくなります。2のサンプルは、どのようにしてサンプル内に異常値を持つことができますか?:-)私はこの状況では推論統計を試みません。見込み客は「真実」に到達するには貧弱であり、あなたは批判に対して開かれたままになるでしょう。
rolando2

2
信頼区間が広くなる理由は、外れ値になる可能性があるためです。ただし、t検定では、サンプルが正常な母集団からのものであると仮定しています。
ピーターフロム-モニカの復職

2

1つのグループから7つのデータポイント、2つ目のグループから2つのデータポイントがあり、どちらも母集団のサブセット(たとえば、男性のサブセットと女性のサブセット)であると仮定します。

t検定の数学は、このウィキペディアのページから入手できます。サンプルサイズが等しく(7対2)、分散が等しくない独立した2サンプルt検定を想定しているため、そのページの半分ほど下にあります。計算は平均と標準偏差に基づいていることがわかります。1つのグループに7人の被験者がいて、別のグループに2人の被験者がいるだけで、平均または標準偏差のいずれかの適切な推定値があると仮定することはできません。2人の被験者のグループの場合、平均は単に2つのデータポイントのちょうど真ん中にある値であるため、十分に推定されていません。7人の被験者がいるグループの場合、サンプルサイズが小さいほどサンプルのサイズが大きくなるため、サンプルサイズは分散(および分散の平方根である標準偏差)に大きく影響します。

たとえば、Wikipediaページの標準偏差基本的な例を見ると、標準偏差は2であるため、分散(標準偏差の2乗)は4です。ただし、最初の2つのデータポイントしかなかった場合(9と1)、分散は10/2 = 5になり、標準偏差は2.2になります。最後の2つの値(4と16)しかなかった場合、分散は20/2 = 10になります標準偏差は3.2になります。まだ同じ値を使用していますが、それらの数は少ないため、推定値への影響を確認できます。

これは、サンプルサイズが小さい推論統計を使用する場合の問題です。結果は、サンプリングによって特に強く影響を受けます。

更新:主題ごとに結果を単に報告できず、これが探索的作業であることを示すことができない理由はありますか?ケースが2つしかない場合、データはケーススタディに非常に似ており、これらは両方とも(1)書き上げることが重要であり、(2)受け入れられている実践です。


ありがとう、ミシェル。これは興味深く、知っておくと便利です。しかし、実際的な観点から何をお勧めしますか?この状況を考えると、続行する最善の方法は何ですか?ありがとう!
ジョニー困惑

こんにちは、Johnny Puzzled。あなたの正確な状況に関する詳細な情報がなければ、私はこれ以上のガイダンスを与えることができないと感じます。
ミシェル

どのような情報が必要ですか?
ジョニーは

1
こんにちは、データの内容、収集方法、グループの内容、観察結果の選択方法など、研究デザインに関する詳細情報。私が知っているのは、2つのグループからの9つの観測(人?ラット?ニューロン?チーズのブロック?放射周波数?)で実験を行ったことだけです。
ミシェル

脳の白質への平均血流は、MRIを使用して人間で測定されたとしましょう。グループはコントロール(7人)と特定の障害を持つ年齢/性別一致患者(2人)です。
ジョニー困惑


0

t検定とMann-Whitney検定の両方で得られた結論を比較し、箱ひげ図と各母集団の平均のプロファイル尤度を調べることをお勧めします。


こんにちは@ Demian、1つのグループのサンプルサイズが2の場合、ボックスプロットでさえ役立つかどうかはわかりません。
ミシェル

0

ブートストラップttestのStata 13 / SEコード小さなサンプルで実行されるttestは、おそらくttest要件(主に、2つのサンプルが抽出された母集団の正常性)を満たさないため、エフロンBに続いて、ブートストラップttest(不等分散)を実行することを推奨します。チブシラニRj。ブートストラップの紹介。フロリダ州ボカラトン:Chapman&Hall / CRC、1993:220-224。Stata 13 / SEのJohnny Puzzledによって提供されたデータのブートストラップttestのコードは、上の画像で報告されています。


あなたの答えにはフォーマットに関する深刻な問題があります。編集してもよろしいですか?
アメーバは2014

回答のレビュー版でフォーマットの問題を解決しようとしました。これを指摘してくれたamoebaに感謝します。
カルロラザロ14年

0

サンプルサイズが2の場合、統計分析に煩わされることなく、個々の数値自体を確認するのが最善の方法です。


1
現在、これはコメントのようになっています。これは良い点ではありますが、元の問題に対する合理的な答えとして、最終的には他のことを行う方が理にかなっていると結論付けられたとしても、問題自体の議論が期待されます。
Glen_b -Reinstate Monica
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.