t検定とノンパラメトリック検定のどちらを選択するか(例:小さいサンプルのウィルコクソン)


96

特定の仮説は、スチューデントのt検定(2サンプルの場合の不等分散のウェルチ補正を使用)、またはウィルコクソンのペアの符号付きランク検定、ウィルコクソン-マン-ホイットニーU検定などのノンパラメトリック検定を使用して検定できます。またはペアサインテスト。特にサンプルサイズが「小さい」場合、どのテストが最も適切であるかについて、原則的な決定を下すにはどうすればよいでしょうか。

入門教科書や講義ノートの多くは、正常にチェックされている「フローチャート」アプローチ与える( -のいずれかinadvisedly -によって、より広く正常試験によって、またはQQプロットまたは同様の)間で決定するのt検定またはノンパラメトリック検定。対応のない2標本t検定では、ウェルチの補正を適用するかどうかを決定するために、分散の均一性をさらにチェックする場合があります。このアプローチの1つの問題は、適用するテストの決定が観測データに依存する方法と、選択したテストのパフォーマンス(電力、タイプIエラー率)にどのように影響するかです。

もう1つの問題は、小さなデータセットで正規性を確認するのがいかに難しいかです。正式なテストでは消費電力が少ないため、違反は検出されない可能性がありますが、QQプロットでデータを目立たせるのは同様の問題です。たとえば、分布が混在しているが、その混合の1つのコンポーネントから観測値が得られなかった場合など、重大な違反であっても検出されない可能性があります。が大きい場合とは異なり、中央極限定理のセーフティネット、および検定統計量とt分布の漸近正規性に頼ることはできません。n

これに対する原則的な応答の1つは「安全第一」です。小さなサンプルで正規性の仮定を確実に検証する方法がないため、ノンパラメトリック法に固執します。別の方法は、理論的に(たとえば、変数はいくつかのランダム成分の合計でCLTが適用される)または経験的に(たとえば、が大きい以前の研究では変数が正常であることを示唆する)、そのような根拠が存在する場合にのみt検定を使用する根拠を考慮することです。しかし、これは通常、おおよその正規性を正当化するだけであり、自由度が低い場合、t検定の無効化を回避するために必要な正常性の程度を判断するのは困難です。n

t検定またはノンパラメトリック検定を選択するほとんどのガイドは、正規性の問題に焦点を当てています。しかし、小さなサンプルでもいくつかの副次的な問題が発生します。

  • 「無関係なサンプル」または「対応のない」t検定を実行する場合、ウェルチ補正を使用するかどうか?一部の人々は、分散の等価性のために仮説検定を使用しますが、ここでは低電力になります。また、SDが(さまざまな基準で)「合理的に」近いかどうかをチェックします。母集団の分散が等しいと考える正当な理由がない限り、小さなサンプルに対して常にウェルチ補正を使用する方が安全ですか?

  • メソッドの選択をパワーとロバスト性のトレードオフと見なす場合、ノンパラメトリックメソッドの漸近効率に関する主張は役に立ちません。「ウィルコクソン検定は、データが実際に正常あればt検定の約95%の能力を持ち、データがそうでなければはるかに強力であるため、ウィルコクソンを使用するだけ」という経験則が時々耳にされますが、 95%が大きなのみ適用される場合、これは小さなサンプルに対する欠陥のある推論です。n

  • 変換されたデータが(十分に)正規分布に属しているかどうかを判断するのが難しいため、小さなサンプルでは、変換がデータに適切かどうかを評価することが非常に困難または不可能になる場合があります。QQプロットで、ログを取るとより合理的に見える非常に正に歪んだデータが明らかになった場合、ログデータにt検定を使用しても安全ですか?大きなサンプルではこれは非常に魅力的ですが、が小さいと、そもそも対数正規分布を期待する根拠がない限り、おそらく先延ばしになるでしょう。n

  • ノンパラメトリックの仮定をチェックするのはどうですか? 一部の情報源は、ウィルコクソン検定を適用する前に対称分布を検証することをお勧めします(確率的優位ではなく位置の検定として扱う)。そもそもノンパラメトリック検定を適用する理由が「安全第一」というマントラへの盲目的な従順である場合、小さなサンプルから歪度を評価することの難しさは、明らかに、対符号検定のより低い検出力につながります。 。

これらの小さなサンプルの問題を念頭に置いて、tテストとノンパラメトリックテストを決定する際に実行する適切な(できれば引用可能な)手順はありますか?

いくつかの優れた回答がありましたが、順列テストなど、ランクテストに代わる他の方法を検討した回答も歓迎します。


2
「テストを選択する方法」が何であるかを説明する必要があります-入門書ではフローチャートを使用することがよくあります。ペアになっていないデータの場合:「1.何らかの方法を使用して、両方のサンプルが正規分布しているかどうかを確認します(3にならない場合)。2.何らかの方法を使用して不等分散を確認します。ウェルチの修正は、修正せずに実行します。3.データを正規に変換してみます(作業が2に進む場合は4に進みます)。4.代わりにUテストを実行します(さまざまな仮定を確認した後)。しかし、これらの手順の多くは、小さなnには不十分なようです。
シルバーフィッシュ14年

2
興味深い質問(+1)と勇気を出して賞金を設定します。興味深い答えを楽しみにしています。ちなみに、私の分野でよく適用されるのは、置換検定です(t検定またはMann-Whitney-Wilcoxonの代わりに)。私はそれが同様に価値のある候補者と見なされる可能性があると思います。それとは別に、「小さなサンプルサイズ」意味することを指定したことはありません。
アメーバ14年

1
@Alexis多くの本は、少なくとも結果が位置に関する記述として見られる場合、ウィルコクソン検定は中央値について対称性を前提としていると主張しています(チェックするためにボックスプロットをお勧めします:多段階の危険性については上記のグレン/フランク・ハレルの答えを参照してください手順)。また、Wilcoxon-Mann-Whitney Uはグループの分布が翻訳によってのみ異なると想定している(およびヒストグラムまたは経験的CDFの視覚的チェックを提案している)と述べるソースもあります。シグ Uテストは、中央値が等しい場合でも、異なる形状の分布が原因である可能性があります。Frank Harrellの回答のコメントに引用されている論文も参照してください。
シルバーフィッシュ14年

3
0:P(XA>XB)=0.5

2
「ウィルコクソンの95%の検出力」推論が小さなサンプルに対してどれだけ「欠陥がある」かを調べる価値があるかもしれません(部分的には、正確に何が行われ、どれだけ小さいかによって異なります)。たとえば、5%の代わりに5.5%でテストを実行することに満足している場合、それが最も適切な達成可能な有意水準であれば、パワーはしばしばかなりよく保持される傾向があります。もちろん、データを収集する前の「パワー計算」段階で一度できれば、状況を把握し、考慮しているサンプルサイズでのウィルコクソンの特性を把握できます。
Glen_b

回答:


67

質問の順序を変更します。

私は教科書や講義ノートが頻繁に意見が合わないことを発見し、ベストプラクティスとして安全に推奨できる選択肢、特に引用できる教科書や論文を選択するシステムを望んでいます。

残念ながら、本などでのこの問題のいくつかの議論は、受け取った知恵に依存しています。受け取った知恵が合理的である場合もあれば、そうでない場合もあります(少なくとも、大きな問題が無視される場合、小さな問題に焦点を当てる傾向があるという意味では)。アドバイスのために提供される正当化を検証する必要があります(何らかの正当化が提供される場合)。

t検定またはノンパラメトリック検定を選択するほとんどのガイドは、正規性の問題に焦点を当てています。

それは本当ですが、この答えで私が対処するいくつかの理由のために、それはいくらか見当違いです。

「無関係なサンプル」または「対応のない」t検定を実行する場合、ウェルチ補正を使用するかどうか。

これは(分散が等しいと考える理由がない限り、これを使用するために)多くの参照のアドバイスです。この答えのいくつかを指摘します。

一部の人々は、分散の等価性のために仮説検定を使用しますが、ここでは低電力になります。一般に、サンプルSDが「合理的に」近いかどうかに目を向けるだけです(多少主観的であるため、より原則的な方法が必要です)。ここでも、nが低い場合、母集団SDサンプルのものとは別に。

母集団の分散が等しいと考える正当な理由がない限り、少量のサンプルに対して常にウェルチ補正を使用する方が安全ですか?それがアドバイスです。テストのプロパティは、仮定テストに基づく選択の影響を受けます。

これに関するいくつかの参照はここここで見ることができますが、同様のことを言うものがもっとあります。

等分散性の問題には、正常性の問題と多くの類似した特性があります。人々はそれをテストしたいと考えています。適切に正当化することはできません(データについて推論し、同じ変数に関連する他の研究からの情報を使用するなど)。

ただし、違いがあります。1つは、少なくとも帰無仮説(したがって、レベルロバストネス)の下での検定統計量の分布に関して、非正規性は大きなサンプルではそれほど重要ではありません(少なくとも有意水準に関してですが、パワーは小さい効果を見つける必要がある場合でも問題になります)。一方、等分散の仮定の下での不等分散の効果は、サンプルサイズが大きくても消えません。

サンプルサイズが「小さい」場合に、最も適切なテストを選択するために推奨される原則的な方法は何ですか?

仮説検定で重要なのは(ある条件のセットの下で)主に2つのことです:

  • 実際のタイプIエラー率はどのくらいですか?

  • 電源の動作はどのようなものですか?

α

これらの小さなサンプルの問題を念頭に置いて、tテストとノンパラメトリックテストのどちらを決定するかを確認するための適切なチェックリストがありますか?

非正規分散と不等分散の可能性の両方を考慮して、いくつかの推奨事項を作成するいくつかの状況を検討します。いずれの場合でも、ウェルチ検定を意味するt検定に言及してください。

  • n中大

ほぼ等しい(または未知の)分散に近い可能性があります:

分布が重い場合は、一般的にMann-Whitneyを使用する方が良いでしょう。ただし、わずかに重い場合は、t検定で問題ありません。ライトテールでは、t検定が(多くの場合)優先される場合があります。順列検定は適切なオプションです(傾向がある場合は、t統計を使用して順列検定を行うこともできます)。ブートストラップテストも適しています。

非正常(または不明)、不等分散(または分散関係不明):

分布がヘビーテールである場合、分散の不等式が平均の不等式のみに関連している場合-つまり、H0が真である場合、スプレッドの差も存在しないはずです。GLMは多くの場合、特に歪度と広がりが平均に関連している場合に適したオプションです。順列テストも別のオプションで、ランクベースのテストと同様の注意事項があります。ここでは、ブートストラップテストが可能です。

[1]

  • n適度に小さい

ランクテストは、ここでも非正規性を期待する場合の合理的なデフォルトです(これも上記の警告です)。形状または分散に関する外部情報がある場合は、GLMを検討できます。物事が正常からあまり遠くないことが予想される場合、t検定で問題ない場合があります。

  • n非常に小さい

[2]

ほとんどの観測値が終了カテゴリの1つであるリッカート尺度項目など、分布が大きく歪んでおり、非常に離散的である場合は、アドバイスを多少修正する必要があります。その場合、ウィルコクソン・マン・ホイットニーは必ずしもt検定よりも良い選択ではありません。

シミュレーションは、起こりそうな状況に関する情報がある場合に、選択をさらにガイドするのに役立ちます。

これは多年にわたるトピックであることに感謝していますが、ほとんどの質問は質問者の特定のデータセット、時にはより一般的な力の議論、時には2つのテストが一致しない場合の対処方法に関するものですが、正しいテストを選択する手順が欲しいです最初の場所!

主な問題は、小さなデータセットで正規性の仮定を確認するのがどれほど難しいかです。

小さなデータセットで正規性を確認すること難しく、ある程度重要な問題ですが、考慮すべき重要な問題がもう1つあると思います。基本的な問題は、テストを選択する基準として正規性を評価しようとすると、選択するテストのプロパティに悪影響を与えることです。

正規性の正式なテストは電力が低いため、違反は検出されない可能性があります。(個人的にはこの目的のためにテストすることはありませんし、明らかに私は一人ではありませんが、クライアントが通常のテストを実行することを要求するとき、それは彼らの教科書や古い講義ノート、または彼らが一度見つけたウェブサイトです宣言を行う必要があります。これは、より重く見える引用が歓迎される1つのポイントです。)

[3]

t-DRとWMW DRの選択は、正常性のテストに基づいてはなりません。

分散の等価性をテストしないことについても同様に明確です。

さらに悪いことに、中央限界定理をセーフティネットとして使用することは安全ではありません。nが小さい場合、検定統計量とt分布の便利な漸近正規性に依存することはできません。

また、大きなサンプルであっても、分子の漸近的な正規性は、t統計がt分布を持つことを意味しません。ただし、漸近的な正規性を保持する必要があるため、それほど重要ではない場合があります(たとえば、分子のCLT、およびSlutskyの定理は、両方の条件が成立する場合、最終的にt統計が正常に見えることを示唆しています)

これに対する原則的な対応の1つは「安全第一」です。小さなサンプルで正規性の仮定を確実に検証する方法がないため、代わりに同等のノンパラメトリックテストを実行します。

これは、実際に私が言及した(または言及へのリンク)参照が与えるアドバイスです。

私が見たもう一つのアプローチは、あまり慣れていませんが、視覚的なチェックを実行し、不都合が見られない場合はt検定を続行します(「正常性を拒否する理由はありません」。このチェックの低出力は無視します)。私の個人的な傾向は、正規性、理論(変数はいくつかのランダム成分の合計であり、CLTが適用される)または経験的(例えば、nがより大きい変数を示唆する以前の研究が正常である)を仮定する根拠があるかどうかを検討することです。

特に、t検定が正規性からの適度な逸脱に対して適度にロバストであるという事実に裏付けられている場合、これらは両方とも良い議論です。(ただし、「中程度の偏差」はトリッキーなフレーズであることに注意してください。正常からの特定の種類の偏差は、それらの偏差が視覚的に非常に小さい場合でも、t検定の電力性能にかなり影響する場合があります。テストは他のものよりもいくつかの偏差に対してロバストではありません。正規性からのわずかな偏差について議論するときは常にこれを覚えておく必要があります。)

ただし、「変数が正常であることを示唆する」という表現に注意してください。正常性と合理的に一貫していることは、正常性と同じことではありません。多くの場合、データを見なくても実際の正規性を拒否できます。たとえば、データが負になり得ない場合、分布は正規化できません。幸いなことに、重要なのは、以前の研究またはデータの構成方法に関する推論から実際に得られるものに近いことです。つまり、正規性からの逸脱は小さいはずです。

もしそうなら、データが目視検査に合格した場合はt検定を使用し、そうでなければノンパラメトリックに固執します。しかし、理論的または経験的根拠は通常、近似正規性を仮定することだけを正当化し、自由度が低い場合、t検定の無効化を回避するために必要な正常性の程度を判断することは困難です。

さて、それはかなり簡単に影響を評価できるものです(前述したように、シミュレーションなど)。私が見たものから、歪度は重い尾よりも重要であるように見えます(しかし、反対のいくつかの主張を見てきました-それが何に基づいているのか分かりませんが)。

方法の選択をパワーとロバスト性のトレードオフと見なす人にとって、ノンパラメトリック法の漸近効率に関する主張は役に立たない。例えば、「Wilcoxonテストは、データが実際に正常であればt検定の約95%の能力を持ち、データが正常でない場合ははるかに強力であるため、Wilcoxonを使用する」という経験則があります。聞いたが、95%が大きいnにのみ適用される場合、これは小さいサンプルの欠陥のある推論です。


[2]

2サンプルと1サンプル/ペア差分の両方の場合について、さまざまな状況でこのようなシミュレーションを行った場合、両方の場合の正常時の小さなサンプル効率は漸近効率よりもやや低いようですが、効率は署名されたランクとWilcoxon-Mann-Whitneyテストのサンプルは、サンプルサイズが非常に小さい場合でも非常に高くなります。

少なくとも、テストが同じ実際の有意水準で行われる場合はそうです。非常に小さなサンプルで5%のテストを行うことはできません(たとえば、ランダム化されたテストなしではできません)。実際、その有意水準でのt検定と比較して、非常によく持ちこたえています。

変換されたデータが(十分に)正規分布に属しているかどうかを判断するのが難しいため、小さなサンプルでは、​​変換がデータに適切かどうかを評価することが非常に困難または不可能になる場合があります。QQプロットで、ログを取るとより合理的に見える非常に正に歪んだデータが明らかになった場合、ログデータに対してt検定を使用しても安全ですか?大きなサンプルではこれは非常に魅力的ですが、nが小さい場合は、そもそも対数正規分布を期待する根拠がない限り、おそらく先延ばしになるでしょう。

別の選択肢があります:別のパラメトリックな仮定を作成します。たとえば、歪んだデータがある場合、たとえば、状況によってはガンマ分布やその他の歪んだファミリをより適切な近似と見なす場合があります-適度に大きいサンプルでは、​​GLMを使用しますが、非常に小さいサンプルでは少量のサンプルテストを確認する必要がある場合があります。多くの場合、シミュレーションが役立ちます。

代替案2:t検定を頑健にします(ただし、結果の検定統計量の分布を大きく離散化しないように頑健な手順の選択に注意してください)-これは、能力などの非常に小さなサンプルのノンパラメトリック手順よりもいくつかの利点がありますタイプIエラー率の低いテストを検討する。

ここでは、正規性からの逸脱に対してスムーズにロバスト化するために、t統計でロケーションのM推定量(およびスケールの関連推定量)を使用するという方針に沿って考えています。ウェルチに似たもの:

xySp

Sp2=sx2nx+sy2nyxsx

ψn

たとえば、法線でシミュレーションを使用してp値を取得できます(サンプルサイズが非常に小さい場合は、オーバーブートストラップをお勧めします-サンプルサイズがそれほど小さくない場合は、慎重に実装されたブートストラップが非常にうまくいく可能性があります、しかし、ウィルコクソン-マン-ホイットニーに戻ることもできます)。スケーリングファクターとdf調整があり、合理的なt近似になると思います。これは、通常の特性に非常に近い種類のプロパティを取得する必要があることを意味し、法線の広い範囲で妥当な堅牢性を備えている必要があります。現在の質問の範囲外となる多くの問題がありますが、非常に小さなサンプルでは、​​利益は必要なコストと余分な労力を上回るはずです。

[私は非常に長い間このことに関する文献を読んでいないので、そのスコアで提供するのに適した参考文献がありません。]

もちろん、分布がやや正規のようではなく、他の分布に似ていると思わない場合は、別のパラメトリックテストの適切な堅牢化を行うことができます。

ノンパラメトリックの仮定を確認したい場合はどうしますか?一部の情報源は、ウィルコクソンテストを適用する前に対称分布を検証することを推奨しています。これにより、正規性のチェックと同様の問題が発生します。

確かに。私はあなたが署名されたランクテスト*を意味すると仮定します。ペアのデータで使用する場合、2つの分布が位置シフトを除いて同じ形状であると仮定する準備ができていれば、差は対称になるはずなので安全です。実際、私たちにはそれほど必要はありません。テストが機能するためには、ヌルの下で対称性が必要です。代替案では必要ありません(正の半直線上の同一形状の右斜め連続分布のペアの状況を考えてみましょう。代替案ではスケールは異なりますが、ヌルではありません。符号付きランクテストは、その場合)。ただし、代替案がロケーションシフトである場合、テストの解釈は簡単です。

*(Wilcoxonの名前は、1つと2つのサンプルランクテストに関連付けられています。符号付きランクとランクサム。Uテストにより、MannとWhitneyはWilcoxonによって研究された状況を一般化し、null分布を評価するための重要な新しいアイデアを導入しましたが、そう、しかしので、少なくとも我々は唯一マン&ホイットニー対ウィルコクソンを考慮すれば、ウィルコクソンは私の本の中で最初に行く- 。ウィルコクソン・マン・ホイットニーの著者の2つのセットの間の優先順位を明確にウィルコクソンのあるStiglerの法則はまだ再び私を打つ、とウィルコクソンおそらく、その優先順位の一部を以前の多くの貢献者と共有する必要があり、(MannとWhitney以外に)同等のテストの複数の発見者とクレジットを共有する必要があります。[4] [5])

参照資料

[1]:Zimmerman DWおよびZumbo BN、(1993)、
非正規母集団に対するランク変換およびスチューデントt検定およびWelch t '検定の力、
Canadian Journal Experimental Psychology、47:523–39。

[2]:JCF de Winter(2013)、
「非常に小さいサンプルサイズでのスチューデントのt検定の使用」、
実践的評価、研究および評価18:10、8月、ISSN 1531-7714
http://pareonline.net/ getvn.asp?v = 18&n = 10

[3]:Michael P. FayおよびMichael A. Proschan(2010)、
「Wilcoxon-Mann-Whitneyまたはt検定?仮説検定と決定ルールの複数の解釈の仮定について」
Stat Surv4:1〜39。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]:BJ、KJ、Mielke、PW、およびJohnston、JE(2012)、
「2サンプルのランクサムテスト:初期開発」
、確率と統計の歴史に関する電子ジャーナル、Vol.8、12月
pdf

[5]:クラスカル、WH(1957)、
「ウィルコクソン不対2標本検定の歴史のノート、」
アメリカの統計学会誌52、356から360まで。


説明をいくつかお願いします。あなたが言及するいくつかのポイントがあります。例えば「分布がヘビーテールである場合...」(または歪んだなど)-おそらくこれは「分布がヘビーテールであると仮定することが合理的である場合」(理論から) / previous study / whatever)ではなく、「サンプルがヘビーテールの場合」ではなく、それ以外の場合は回避しようとしているマルチステップテストに戻りますか?(このトピックの中心的な問題は、サンプルを読み過ぎずに、分布に関する信念や仮定を正当化する方法であるように思われます。)
Silverfish 14年

はい、それは「人口は尾が重いことが知られているか、尾が重いと合理的に予想されるかもしれない」と理解されるべきです。それには、確かに、理論(または、理論の地位に到達しない状況についての一般的な推論さえ)、専門知識、および以前の研究のようなものが含まれます。ヘビーテールのテストを提案するものではありません。単純に不明な状況では、特定の状況にもっともらしいさまざまな分布の下で悪いことがどのように起こるかを調査する価値があります。
Glen_b 14年

このすでに優れた答えに、t検定を「堅牢化」するためにどのようなオプションがあるかについて、もう少し詳しく説明できる可能性はありますか?
シルバーフィッシュ14年

Silverfish-堅牢化の詳細を尋ねるあなたの質問に十分に答えたかどうかはわかりません。もう少し追加します。
-Glen_b

追加してくれてありがとう、私はそれがこの答えの質に多くを加えると思った。今、この質問は少し落ち着いて、良い回答のセットを生成しました、元の質問に良いコピー編集を与え、誤解を招く可能性のあるものを削除したいです(過去を読んでいない読者の利益のために)質問!)。引用が再編成された質問と一致するように、回答を適切に編集しても大丈夫ですか?
シルバーフィッシュ

22

YktP

これらすべてをまとめると、推奨されるガイダンスは次のとおりです。

  1. データを調べる前にガウス分布を仮定する説得力のある理由がなく、共変量調整が必要ない場合は、ノンパラメトリック検定を使用します。
  2. 共変量の調整が必要な場合は、希望するランクテストのセミパラメトリック回帰一般化を使用します。ウィルコクソン検定の場合、これは比例オッズモデルであり、通常のスコア検定の場合、これはプロビット順序回帰です。

t3πY

kkloglog累積確率順序モデルをリンクすると、分布は比例ハザードにあると想定されます。ロジットリンクの累積確率モデル(比例オッズモデル)の場合、分布は比例オッズの仮定によって接続されていると想定されます。つまり、累積分布関数のロジットは平行です。分布の1つの形状は無関係です。詳細は、配布資料の第15章のhttp://biostat.mc.vanderbilt.edu/CourseBios330にあります。

頻繁に考慮される頻度統計法には2つのタイプの仮定があります。1つ目は、メソッドがタイプIエラーを保持するために必要な仮定です。2番目は、タイプIIエラー(最適性、感度)の保持に関するものです。2番目に必要な前提を明らかにする最善の方法は、上記のようにノンパラメトリックテストをセミパラメトリックモデルに埋め込むことだと思います。2つの間の実際の関係は、セミパラメトリックモデルから生じるRaoの効率的なスコアテストによるものです。2サンプルの場合の比例オッズモデルからのスコア検定の分子は、正確にランクサム統計です。


1
ありがとう しかし、この種のマルチステップ手順は、微妙ではありますが、テストの動作方法に明らかに影響します。
シルバーフィッシュ14年

1
nn=15

3
10000p

4
順列テストは、タイプIエラーを制御する方法ですが、タイプIIエラーには対処しません。準最適な統計(たとえば、データが対数ガウス分布に由来する場合の通常の平均と分散)に基づく順列検定は、検出力の面で苦しみます。
フランクハレル14年

3
はい、配布資料の第15章は、来月出版社に提出する私の本の第2版の新しい章に拡張されます。
フランクハレル14年

13

ランドウィルコックスの出版物や本では、いくつかの非常に重要なポイントを挙げています。その多くは、以前の投稿でフランクハレルとグレン_bによってリストされました。

  1. 平均は、必ずしも推測したい量ではありません。典型的な観察をよりよく例証する他の量があるかもしれません。
  2. t検定の場合、正常からのわずかな逸脱でも電力は低くなる可能性があります。
  3. t検定の場合、観測された確率カバレッジは名目とは大きく異なる場合があります。

主な提案は次のとおりです。

  1. 堅牢な代替手段は、t検定を使用してトリム平均またはM推定器を比較することです。Wilcoxは、20%のトリミング平均を提案しています。
  2. 経験的尤度法は理論的にはより有利ですが(Owen、2001)、中程度から小さいnでは必ずしもそうではありません。
  3. タイプIエラーを制御する必要があるがCIを取得できない場合、順列テストは優れています。
  4. 多くの場合、Wilcoxはトリミングされた平均を比較するためにbootstrap-tを提案します。Rでは、これはWRSパッケージの関数yuenbtyhbtに実装されています。
  5. トリミングの量が> / = 20%の場合、パーセンタイルブートストラップはパーセンタイルtよりも優れている可能性があります。Rでは、これは前述のWRSパッケージの関数pb2genに実装されています。

2つの良い参考文献は、Wilcox(2010)とWilcox(2012)です。


8

ブラッドリーは、彼の作品「Distribution-Free Statistics Tests」(1968年、17–24ページ)で、彼が「古典的」テストと「無配布」テストと呼ぶ13の対比をもたらしています。Bradley では「ノンパラメトリック」と「ディストリビューションフリー」を区別していますが、質問の目的上、この違いは関係ありません。これらの13には、テストの派生物だけでなく、そのアプリケーションに関連する要素が含まれています。これらには以下が含まれます。

  • 有意水準の選択:古典的検定には連続した有意水準があります。分布のないテストでは、通常、有意水準の個別の観測値があるため、従来のテストでは、上記のレベルをより柔軟に設定できます。
  • 棄却域の論理的妥当性:分布のない検定棄却域は直観的に理解できず(必ずしも滑らかでも連続的でもない)、検定が帰無仮説を棄却したと見なされるタイミングに関して混乱を引き起こす可能性があります。
  • テスト可能な統計のタイプ: Bradleyを直接引用するには:「観測の大きさの算術演算に関して定義された統計は、従来の手法でテストできます。分布無方法。平均及び分散は、後者の前者の例と中央値と四分位範囲である。」は、特に、非正規分布を扱う場合、他の統計をテストする能力は、配布フリー試験に重量を貸し、貴重なります。
  • 高次の相互作用のテスト容易性:従来のテストでは、分布のないテストよりもはるかに簡単です。
  • サンプルサイズの影響:これは私の意見ではかなり重要なものです。サンプルサイズが小さい場合(Bradleyによると、n = 10前後)、古典的なテストの基礎となるパラメトリックな仮定に違反しているかどうかを判断するのは非常に困難です。配布なしのテストには、これらの前提に違反するものはありません。さらに、仮定に違反していない場合でも、多くの場合、配布なしのテストは適用がほぼ同じくらい簡単で、テストの効率はほぼ同じです。したがって、サンプルサイズが小さい場合(10未満、最大30まで)、Bradleyは、分布のないテストのほぼ日常的なアプリケーションを好みます。サンプルサイズが大きい場合、中央限界定理は、サンプル平均とサンプル分散が正常になる傾向があるという点でパラメトリック違反を圧倒する傾向があり、パラメトリック検定は効率の点で優れている場合があります。
  • 適用範囲:分布のないことにより、このようなテストは、特定の分布を想定した従来のテストよりもはるかに大きなクラスの母集団に適用できます。
  • 連続分布の仮定の違反の検出可能性:分布のないテスト(例:同点スコアの存在)で見やすく、パラメトリックテストでは難しい。
  • 連続分布の仮定違反の影響:仮定に違反すると、テストは不正確になります。Bradleyは、分布のないテストで不正確さの範囲を推定する方法を説明するのに時間を費やしていますが、古典的なテストに類似したルーチンはありません。

1
引用していただきありがとうございます!ブラッドリーの仕事はかなり古いように思えるので、さまざまなシナリオで効率とタイプI / IIエラー率を比較するための現代のシミュレーション研究にはあまり取り組んでいないと思いますか?また、Brunner-Munzelテストについて彼が提案していることに興味があります。2つのグループの分散が等しいことがわかっていない場合、Uテストの代わりに使用する必要がありますか。
シルバーフィッシュ14年

1
ブラッドリーは効率について議論していますが、ほとんどの場合、それは漸近的な相対的効率のコンテキストです。彼はときどき有限のサンプルサイズ効率についての声明の情報源を提供しますが、仕事は1968年からであるため、それ以降、はるかに優れた分析が行われたと確信しています。そういえば、もし私が正しければ、BrunnerとMunzelは2000年に彼らの記事を書きました。
アヴラハム14年

はい、それは確かにそれを説明するでしょう!:) Bradleyよりも最新の調査があるかどうか知っていますか?
シルバーフィッシュ14年

簡単な検索で、ノンパラメトリック統計に関する最近のテキストがたくさんあることがわかります。例:ノンパラメトリック統計法(Hollander et al、2013)、ノンパラメトリック仮説検定:Rでのアプリケーションを使用したランクおよび順列法(Bonnini et al、2014)、ノンパラメトリック統計的推論、第5版(Gibbons and Chakraborti、2010)。さまざまな検索で出てくる他の多くがあります。私は何も持っていないので、私は勧告をすることはできません。ごめんなさい。
アヴラハム14年

5

この非常に興味深い質問に答え始めました。

ペアになっていないデータの場合:

Morten W. Fagerland、Leiv Sandvikpaywallの背後)による不均等な分散を伴う5つの2サンプル位置テストのパフォーマンスは、5つの異なるテスト(tテスト、Welch U、Yuen-Welch、Wilcoxon-Mann)で一連の実験を実行します-ホイットニーとブルナー・マンゼル)、サンプルサイズ、サンプル比、正常からの逸脱などのさまざまな組み合わせ。論文は最終的にWelch Uを一般的に示唆していますが、

しかし、論文の付録Aには、サンプルサイズの各組み合わせの結果がリストされています。そして小さなサンプルサイズ(M = 10、N = 10または25)についての結果が(予想通り)より混乱している-に私の結果の推定(ない著者の)ウェルチU、ブルンナー- Munzelは等しく良好に機能すると思われる、とt検定は、m = 10およびn = 10の場合でもうまくいきます。

これは私がこれまでに知っていることです。

「速い」解決策として、統計の研究成果への影響に対する医師の認識の高まりを引用しました:パトリックDブリッジとShlomo S Sawilowskyによる応用研究 (これもペイウォールの背後にあります)、サンプルサイズに関係なくWilcoxonに直行しますが、例えば、警告emptor2つの明らかに非正規分布を比較するときは常にノンパラメトリックテストを選択する必要がありますか?Eva SkovlundとGrete U. Fenstaによって

ペアのデータについて同様の結果はまだ見つかりません


引用に感謝します!明確にするために、「Welch U」、「Welch t」または「Welch-Aspin t」としても知られる同じテスト、または(私はおそらく質問でそれを不適切と呼んだように)「Welch修正付きtテスト」を参照しています?
シルバーフィッシュ14年

私の知る限り、Welch Uは通常のWelch-Aspinではなく、自由度にWelch–Satterthwaite方程式を使用せず、サンプルの立方体と二乗の差がある式を使用します。サイズ。
ジャックウェイナー14年

名前にもかかわらず、それはまだt検定ですか?他のどこでも「Welch U」を検索すると、Welch-Aspinに言及していることがわかりますが、これはイライラします。
シルバーフィッシュ14年


1

ガンマ母集団の平均の差のシミュレーション

t検定とMann Whitney検定の比較

結果の概要

  • 2つの母集団の分散が同じ場合、Mann Whitney検定の真の検出力は大きくなりますが、t検定よりも真のタイプ1エラーも大きくなります。
  • H0
  • 2つの母集団の分散が異なる場合、平均が同じであっても、マンホイットニー検定では大きなタイプ1エラーが発生します。これは、Mann Whitneyが平均ではなく分布の違いをテストするためです。
  • t検定は分散の違いに対してロバストですが、平均は同じです

実験1)異なる手段、同じ分散

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

ソース:

人口分布

ここに画像の説明を入力してください

シミュレーション結果

ここに画像の説明を入力してください

討論

  • N=10
  • すべてのサンプルサイズで、マンホイットニー検定はt検定よりも強力であり、場合によっては2倍になります。
  • すべてのサンプルサイズで、マンホイットニー検定のタイプIエラーは大きく、これは1倍または2〜3
  • サンプル数が少ない場合、t検定の消費電力は低い

考察:2つの母集団の分散が実際に同じである場合、Mann Whitney検定は標本サイズが小さい場合の検出力の点でt検定を大きく上回りますが、タイプ1エラー率が高くなります。


実験2:異なる分散、同じ平均

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

ディスカッション シミュレーションの結果は、t検定は異なる分散に非常に堅牢で、タイプIエラーは、すべてのサンプルサイズの5%に近いことを示しています。予想どおり、この場合、Mann Whitneyのテストは、平均値の差ではなく分布の差をテストしているため、パフォーマンスが低下します。

ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.