回答:
Kubinger、Rasch and Moder(2009)の論文(ドイツ語)に基づいて、他の2つの答えに反対したいと思います。
彼らは、t検定によって課せられた仮定(分散の正規性と均一性)を満たすか、満たさない分布からの「広範な」シミュレーションに基づいて、仮定が満たされた場合にウェルチ検定が等しくうまく機能する(つまり、基本的に同じ)アルファおよびベータエラーをコミットする確率)が、特にパワーの点で仮定が満たされない場合、t検定よりも優れています。したがって、サンプルサイズが30を超える場合は、常にウェルチテストを使用することをお勧めします。
メタコメントとして:統計に興味のある人(私の場合はおそらく他の人もそうですが)の場合、データ(私の場合)に基づく議論は、理論上の根拠(ここの他の人)だけに基づく議論として少なくとも等しくカウントする必要があります。
更新:
もう一度このトピックについて考えた後、さらに2つの推奨事項を見つけましたが、新しい方が私のポイントを支援します。これらの推奨事項につながる議論については、元の論文(少なくとも私にとっては両方とも自由に入手できる)を見てください。
2006年のGraeme D. Ruxtonからの最初の推奨事項:「無関係なデータのサンプルに基づいて2つの母集団の中心傾向を比較したい場合は、Studentのt検定よりも不等分散t検定を常に使用する必要があります。またはMann-Whitney U検定。「
In:
Ruxton、GD、2006 。不等分散t検定は、スチューデントのt検定およびMann-Whitney U検定の未使用の代替です。
行動。ECOL。17、688–690。
2番目の(古い)推奨事項は、クームスらによるものです。(1996、P 148。):「要約すると、独立したサンプルのt検定は、等しい母分散の仮定に違反した場合でも、十分に大きな同等サイズのサンプルがあるタイプI誤差率を制御するという点で、一般的に許容される提供される。等しくないためただし、分布が短い対称または正規分布の場合は、ジェームズの2次検定を使用します。有望な代替法には、Wilcox HおよびYuenトリム平均検定があります。ウェルチテストまたはジェームズテストよりもタイプIのエラー率をより幅広く制御し、データが長い場合に強力になります。」(強調を追加)
:
Coombs WT、Algina J、Oltman D.1996。母分散が必ずしも等しくない場合のタイプIエラー率を制御するために選択された単変量および多変量のオムニバス仮説検定。Rev Educ Res 66:137–79。
もちろん、両方のテストを終了し、ベイズt検定(Savage-Dickey比検定)の使用を開始することができます。帰無仮説(つまり、「拒否に失敗した」という古い話はもうありません)
このテストは実装が非常に簡単(かつ高速)であり、ベイジアン統計に詳しくない読者に、Rスクリプトとともにその使用方法を明確に説明する論文があります。基本的には、データを挿入するだけでコマンドをRコンソールに送信できます。
サンプルデータを含むこれらすべてのチュートリアルもあります。
http://www.ruudwetzels.com/index.php?src=SDtest
これは尋ねられたものに対する直接的な応答ではないことは知っていますが、読者はこの素晴らしい代替手段を楽しんでいると思います
乾杯
正確な結果は近似よりも望ましいため、近似が正確な方法とは異なる結果につながる可能性がある奇妙なエッジの場合は避けてください。
ウェルチ法は、古いt検定を行うための迅速な方法ではありません。それは、非常に難しい問題、つまり不等分散の下でt検定を作成する方法の扱いやすい近似です。等分散の場合は十分に理解されており、単純で正確です。したがって、可能な場合は常に使用する必要があります。
私が考えることができる2つの理由:
通常のスチューデントのTは、サンプルサイズが等しい場合、不均一分散に対して非常に堅牢です。
データがホモセダスティックであることをアプリオリに強く信じている場合は、ウェルチのTの代わりにスチューデントのTを使用することで何も失わず、わずかなパワーを得ることができます。
私が説明しない理由の1つは、スチューデントのTが正確であり、ウェルチのTがそうではないことです。スチューデントのTの正確さは、正規分布データに対してのみ正確であり、実際のデータは正確に正規分布されないため、アカデミックです。分布がすべての実数をもっともらしくサポートできる場所で、人々が実際に統計的に測定および分析する単一の量を考えることはできません。たとえば、宇宙には非常に多くの原子しかなく、一部の量は負にはなり得ません。したがって、実際のデータに対して何らかの種類のT検定を使用すると、とにかく近似を行うことになります。
ここで反対の見方をします。ペアになっていない標準のスチューデントのt検定でほぼ同じ結果が得られるのに、なぜウェルチ検定に煩わされるのか。私はしばらく前にこの問題を研究し、t検定を打ち破り、Welch検定を支持するために、さまざまなシナリオを調査しました。そのために、あるグループと他のグループで最大5倍のサンプルサイズを使用しました。また、あるグループと他のグループで最大25倍の分散を調査しました。そして、それは本当に重要な違いをもたらさなかった。対応のないt検定では、ウェルチ検定とほぼ同じ範囲のp値が生成されました。
私の作品は次のリンクで見ることができ、特にスライド5と6に焦点を当てています。
少なくともエラーについては、ウェルチ補正テストの頻度の高い特性が通常のスチューデントのTよりも優れていることは事実です。私はそれだけがウェルチテストのかなり良い議論であることに同意します。ただし、Welch修正を使用することはしばしば欺de的であるため、私は通常、Welch修正を推奨することに消極的です。確かに、テスト自体に対する批判ではありません。
ウェルチ補正を推奨しない理由は、自由度とp値が引き出される理論上の分布を変更するだけではないためです。テストをノンパラメトリックにします。ウェルチ補正t検定を実行するために、1つの分散がプールされますが、分散は等しいと見なすことができますが、最終的なテスト手順を変更し、分散が等しいと見なすことができないか、サンプルの分散のみを考慮するようにします。これは、プールされた分散が母集団の非代表と見なされ、観測値をテストしているだけであることを認めたため、ノンパラメトリックテストになります。
それ自体は、特に悪いことは何もありません。ただし、a)通常、十分な特異性で報告されていないため、私はそれを欺いています。およびb)それを使用する人々は、t検定と同じ意味でそれについて考える傾向があります。公開された論文で行われたことを知っている唯一の方法は、t分布の奇妙なDFを見たときです。これは、Rexton(Henrikの回答で参照)がレビューで伝えることができる唯一の方法でもありました。残念ながら、ウェルチ補正検定のノンパラメトリックな性質は、自由度が変化したかどうかに関係なく発生します(サンプルの分散が等しい場合でも)。しかし、この報告の問題は、ウェルチ補正を使用するほとんどの人が、テストへのこの変更が発生したことを認識しないという事実の徴候です。
したがって、このため、ノンパラメトリックテストを推奨する場合は、パラメトリックであると思われるテストを少なくとも使用しないでください。テストの正式名称は、ノンパラメトリックウェルチ修正Tテストである必要があります。人々がそれをそのように報告したなら、私はヘンリクの推薦でもっと幸せになるでしょう。