質問の順序を変更します。
私は教科書や講義ノートが頻繁に意見が合わないことを発見し、ベストプラクティスとして安全に推奨できる選択肢、特に引用できる教科書や論文を選択するシステムを望んでいます。
残念ながら、本などでのこの問題のいくつかの議論は、受け取った知恵に依存しています。受け取った知恵が合理的である場合もあれば、そうでない場合もあります(少なくとも、大きな問題が無視される場合、小さな問題に焦点を当てる傾向があるという意味では)。アドバイスのために提供される正当化を検証する必要があります(何らかの正当化が提供される場合)。
t検定またはノンパラメトリック検定を選択するほとんどのガイドは、正規性の問題に焦点を当てています。
それは本当ですが、この答えで私が対処するいくつかの理由のために、それはいくらか見当違いです。
「無関係なサンプル」または「対応のない」t検定を実行する場合、ウェルチ補正を使用するかどうか。
これは(分散が等しいと考える理由がない限り、これを使用するために)多くの参照のアドバイスです。この答えのいくつかを指摘します。
一部の人々は、分散の等価性のために仮説検定を使用しますが、ここでは低電力になります。一般に、サンプルSDが「合理的に」近いかどうかに目を向けるだけです(多少主観的であるため、より原則的な方法が必要です)。ここでも、nが低い場合、母集団SDサンプルのものとは別に。
母集団の分散が等しいと考える正当な理由がない限り、少量のサンプルに対して常にウェルチ補正を使用する方が安全ですか?それがアドバイスです。テストのプロパティは、仮定テストに基づく選択の影響を受けます。
これに関するいくつかの参照はこことここで見ることができますが、同様のことを言うものがもっとあります。
等分散性の問題には、正常性の問題と多くの類似した特性があります。人々はそれをテストしたいと考えています。適切に正当化することはできません(データについて推論し、同じ変数に関連する他の研究からの情報を使用するなど)。
ただし、違いがあります。1つは、少なくとも帰無仮説(したがって、レベルロバストネス)の下での検定統計量の分布に関して、非正規性は大きなサンプルではそれほど重要ではありません(少なくとも有意水準に関してですが、パワーは小さい効果を見つける必要がある場合でも問題になります)。一方、等分散の仮定の下での不等分散の効果は、サンプルサイズが大きくても消えません。
サンプルサイズが「小さい」場合に、最も適切なテストを選択するために推奨される原則的な方法は何ですか?
仮説検定で重要なのは(ある条件のセットの下で)主に2つのことです:
実際のタイプIエラー率はどのくらいですか?
電源の動作はどのようなものですか?
α
これらの小さなサンプルの問題を念頭に置いて、tテストとノンパラメトリックテストのどちらを決定するかを確認するための適切なチェックリストがありますか?
非正規分散と不等分散の可能性の両方を考慮して、いくつかの推奨事項を作成するいくつかの状況を検討します。いずれの場合でも、ウェルチ検定を意味するt検定に言及してください。
ほぼ等しい(または未知の)分散に近い可能性があります:
分布が重い場合は、一般的にMann-Whitneyを使用する方が良いでしょう。ただし、わずかに重い場合は、t検定で問題ありません。ライトテールでは、t検定が(多くの場合)優先される場合があります。順列検定は適切なオプションです(傾向がある場合は、t統計を使用して順列検定を行うこともできます)。ブートストラップテストも適しています。
非正常(または不明)、不等分散(または分散関係不明):
分布がヘビーテールである場合、分散の不等式が平均の不等式のみに関連している場合-つまり、H0が真である場合、スプレッドの差も存在しないはずです。GLMは多くの場合、特に歪度と広がりが平均に関連している場合に適したオプションです。順列テストも別のオプションで、ランクベースのテストと同様の注意事項があります。ここでは、ブートストラップテストが可能です。
[1]
ランクテストは、ここでも非正規性を期待する場合の合理的なデフォルトです(これも上記の警告です)。形状または分散に関する外部情報がある場合は、GLMを検討できます。物事が正常からあまり遠くないことが予想される場合、t検定で問題ない場合があります。
[2]
ほとんどの観測値が終了カテゴリの1つであるリッカート尺度項目など、分布が大きく歪んでおり、非常に離散的である場合は、アドバイスを多少修正する必要があります。その場合、ウィルコクソン・マン・ホイットニーは必ずしもt検定よりも良い選択ではありません。
シミュレーションは、起こりそうな状況に関する情報がある場合に、選択をさらにガイドするのに役立ちます。
これは多年にわたるトピックであることに感謝していますが、ほとんどの質問は質問者の特定のデータセット、時にはより一般的な力の議論、時には2つのテストが一致しない場合の対処方法に関するものですが、正しいテストを選択する手順が欲しいです最初の場所!
主な問題は、小さなデータセットで正規性の仮定を確認するのがどれほど難しいかです。
小さなデータセットで正規性を確認することは難しく、ある程度重要な問題ですが、考慮すべき重要な問題がもう1つあると思います。基本的な問題は、テストを選択する基準として正規性を評価しようとすると、選択するテストのプロパティに悪影響を与えることです。
正規性の正式なテストは電力が低いため、違反は検出されない可能性があります。(個人的にはこの目的のためにテストすることはありませんし、明らかに私は一人ではありませんが、クライアントが通常のテストを実行することを要求するとき、それは彼らの教科書や古い講義ノート、または彼らが一度見つけたウェブサイトです宣言を行う必要があります。これは、より重く見える引用が歓迎される1つのポイントです。)
[3]
t-DRとWMW DRの選択は、正常性のテストに基づいてはなりません。
分散の等価性をテストしないことについても同様に明確です。
さらに悪いことに、中央限界定理をセーフティネットとして使用することは安全ではありません。nが小さい場合、検定統計量とt分布の便利な漸近正規性に依存することはできません。
また、大きなサンプルであっても、分子の漸近的な正規性は、t統計がt分布を持つことを意味しません。ただし、漸近的な正規性を保持する必要があるため、それほど重要ではない場合があります(たとえば、分子のCLT、およびSlutskyの定理は、両方の条件が成立する場合、最終的にt統計が正常に見えることを示唆しています)
これに対する原則的な対応の1つは「安全第一」です。小さなサンプルで正規性の仮定を確実に検証する方法がないため、代わりに同等のノンパラメトリックテストを実行します。
これは、実際に私が言及した(または言及へのリンク)参照が与えるアドバイスです。
私が見たもう一つのアプローチは、あまり慣れていませんが、視覚的なチェックを実行し、不都合が見られない場合はt検定を続行します(「正常性を拒否する理由はありません」。このチェックの低出力は無視します)。私の個人的な傾向は、正規性、理論(変数はいくつかのランダム成分の合計であり、CLTが適用される)または経験的(例えば、nがより大きい変数を示唆する以前の研究が正常である)を仮定する根拠があるかどうかを検討することです。
特に、t検定が正規性からの適度な逸脱に対して適度にロバストであるという事実に裏付けられている場合、これらは両方とも良い議論です。(ただし、「中程度の偏差」はトリッキーなフレーズであることに注意してください。正常からの特定の種類の偏差は、それらの偏差が視覚的に非常に小さい場合でも、t検定の電力性能にかなり影響する場合があります。テストは他のものよりもいくつかの偏差に対してロバストではありません。正規性からのわずかな偏差について議論するときは常にこれを覚えておく必要があります。)
ただし、「変数が正常であることを示唆する」という表現に注意してください。正常性と合理的に一貫していることは、正常性と同じことではありません。多くの場合、データを見なくても実際の正規性を拒否できます。たとえば、データが負になり得ない場合、分布は正規化できません。幸いなことに、重要なのは、以前の研究またはデータの構成方法に関する推論から実際に得られるものに近いことです。つまり、正規性からの逸脱は小さいはずです。
もしそうなら、データが目視検査に合格した場合はt検定を使用し、そうでなければノンパラメトリックに固執します。しかし、理論的または経験的根拠は通常、近似正規性を仮定することだけを正当化し、自由度が低い場合、t検定の無効化を回避するために必要な正常性の程度を判断することは困難です。
さて、それはかなり簡単に影響を評価できるものです(前述したように、シミュレーションなど)。私が見たものから、歪度は重い尾よりも重要であるように見えます(しかし、反対のいくつかの主張を見てきました-それが何に基づいているのか分かりませんが)。
方法の選択をパワーとロバスト性のトレードオフと見なす人にとって、ノンパラメトリック法の漸近効率に関する主張は役に立たない。例えば、「Wilcoxonテストは、データが実際に正常であればt検定の約95%の能力を持ち、データが正常でない場合ははるかに強力であるため、Wilcoxonを使用する」という経験則があります。聞いたが、95%が大きいnにのみ適用される場合、これは小さいサンプルの欠陥のある推論です。
[2]
2サンプルと1サンプル/ペア差分の両方の場合について、さまざまな状況でこのようなシミュレーションを行った場合、両方の場合の正常時の小さなサンプル効率は漸近効率よりもやや低いようですが、効率は署名されたランクとWilcoxon-Mann-Whitneyテストのサンプルは、サンプルサイズが非常に小さい場合でも非常に高くなります。
少なくとも、テストが同じ実際の有意水準で行われる場合はそうです。非常に小さなサンプルで5%のテストを行うことはできません(たとえば、ランダム化されたテストなしではできません)。実際、その有意水準でのt検定と比較して、非常によく持ちこたえています。
変換されたデータが(十分に)正規分布に属しているかどうかを判断するのが難しいため、小さなサンプルでは、変換がデータに適切かどうかを評価することが非常に困難または不可能になる場合があります。QQプロットで、ログを取るとより合理的に見える非常に正に歪んだデータが明らかになった場合、ログデータに対してt検定を使用しても安全ですか?大きなサンプルではこれは非常に魅力的ですが、nが小さい場合は、そもそも対数正規分布を期待する根拠がない限り、おそらく先延ばしになるでしょう。
別の選択肢があります:別のパラメトリックな仮定を作成します。たとえば、歪んだデータがある場合、たとえば、状況によってはガンマ分布やその他の歪んだファミリをより適切な近似と見なす場合があります-適度に大きいサンプルでは、GLMを使用しますが、非常に小さいサンプルでは少量のサンプルテストを確認する必要がある場合があります。多くの場合、シミュレーションが役立ちます。
代替案2:t検定を頑健にします(ただし、結果の検定統計量の分布を大きく離散化しないように頑健な手順の選択に注意してください)-これは、能力などの非常に小さなサンプルのノンパラメトリック手順よりもいくつかの利点がありますタイプIエラー率の低いテストを検討する。
ここでは、正規性からの逸脱に対してスムーズにロバスト化するために、t統計でロケーションのM推定量(およびスケールの関連推定量)を使用するという方針に沿って考えています。ウェルチに似たもの:
x∼−y∼S∼p
S∼2p=s∼2xnx+s∼2ynyx∼s∼x
ψn
たとえば、法線でシミュレーションを使用してp値を取得できます(サンプルサイズが非常に小さい場合は、オーバーブートストラップをお勧めします-サンプルサイズがそれほど小さくない場合は、慎重に実装されたブートストラップが非常にうまくいく可能性があります、しかし、ウィルコクソン-マン-ホイットニーに戻ることもできます)。スケーリングファクターとdf調整があり、合理的なt近似になると思います。これは、通常の特性に非常に近い種類のプロパティを取得する必要があることを意味し、法線の広い範囲で妥当な堅牢性を備えている必要があります。現在の質問の範囲外となる多くの問題がありますが、非常に小さなサンプルでは、利益は必要なコストと余分な労力を上回るはずです。
[私は非常に長い間このことに関する文献を読んでいないので、そのスコアで提供するのに適した参考文献がありません。]
もちろん、分布がやや正規のようではなく、他の分布に似ていると思わない場合は、別のパラメトリックテストの適切な堅牢化を行うことができます。
ノンパラメトリックの仮定を確認したい場合はどうしますか?一部の情報源は、ウィルコクソンテストを適用する前に対称分布を検証することを推奨しています。これにより、正規性のチェックと同様の問題が発生します。
確かに。私はあなたが署名されたランクテスト*を意味すると仮定します。ペアのデータで使用する場合、2つの分布が位置シフトを除いて同じ形状であると仮定する準備ができていれば、差は対称になるはずなので安全です。実際、私たちにはそれほど必要はありません。テストが機能するためには、ヌルの下で対称性が必要です。代替案では必要ありません(正の半直線上の同一形状の右斜め連続分布のペアの状況を考えてみましょう。代替案ではスケールは異なりますが、ヌルではありません。符号付きランクテストは、その場合)。ただし、代替案がロケーションシフトである場合、テストの解釈は簡単です。
*(Wilcoxonの名前は、1つと2つのサンプルランクテストに関連付けられています。符号付きランクとランクサム。Uテストにより、MannとWhitneyはWilcoxonによって研究された状況を一般化し、null分布を評価するための重要な新しいアイデアを導入しましたが、そう、しかしので、少なくとも我々は唯一マン&ホイットニー対ウィルコクソンを考慮すれば、ウィルコクソンは私の本の中で最初に行く- 。ウィルコクソン・マン・ホイットニーの著者の2つのセットの間の優先順位を明確にウィルコクソンのあるStiglerの法則はまだ再び私を打つ、とウィルコクソンおそらく、その優先順位の一部を以前の多くの貢献者と共有する必要があり、(MannとWhitney以外に)同等のテストの複数の発見者とクレジットを共有する必要があります。[4] [5])
参照資料
[1]:Zimmerman DWおよびZumbo BN、(1993)、
非正規母集団に対するランク変換およびスチューデントt検定およびWelch t '検定の力、
Canadian Journal Experimental Psychology、47:523–39。
[2]:JCF de Winter(2013)、
「非常に小さいサンプルサイズでのスチューデントのt検定の使用」、
実践的評価、研究および評価、 18:10、8月、ISSN 1531-7714
http://pareonline.net/ getvn.asp?v = 18&n = 10
[3]:Michael P. FayおよびMichael A. Proschan(2010)、
「Wilcoxon-Mann-Whitneyまたはt検定?仮説検定と決定ルールの複数の解釈の仮定について」
Stat Surv。4:1〜39。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]:BJ、KJ、Mielke、PW、およびJohnston、JE(2012)、
「2サンプルのランクサムテスト:初期開発」
、確率と統計の歴史に関する電子ジャーナル、Vol.8、12月
pdf
[5]:クラスカル、WH(1957)、
「ウィルコクソン不対2標本検定の歴史のノート、」
アメリカの統計学会誌、52、356から360まで。