t検定を行うとき、なぜdfのウェルチ近似を常に使用するのではなく、等しい分散を仮定(または検定)することを好むのでしょうか?


47

分散の均一性の仮定が満たされると、ウェルチ調整t検定と標準t検定の結果はほぼ同じになります。単にウェルチ調整tを常に使用しないのはなぜですか?

回答:


33

Kubinger、Rasch and Moder(2009)の論文(ドイツ語)に基づいて、他の2つの答えに反対したいと思います。

彼らは、t検定によって課せられた仮定(分散の正規性と均一性)を満たすか、満たさない分布からの「広範な」シミュレーションに基づいて、仮定が満たされた場合にウェルチ検定が等しくうまく機能する(つまり、基本的に同じ)アルファおよびベータエラーをコミットする確率)が、特にパワーの点で仮定が満たされない場合、t検定よりも優れています。したがって、サンプルサイズが30を超える場合は、常にウェルチテストを使用することをお勧めします。

メタコメントとして:統計に興味のある人(私の場合はおそらく他の人もそうですが)の場合、データ(私の場合)に基づく議論は、理論上の根拠(ここの他の人)だけに基づく議論として少なくとも等しくカウントする必要があります。


更新:
もう一度このトピックについて考えた後、さらに2つの推奨事項を見つけましたが、新しい方が私のポイントを支援します。これらの推奨事項につながる議論については、元の論文(少なくとも私にとっては両方とも自由に入手できる)を見てください。

2006年のGraeme D. Ruxtonからの最初の推奨事項:「無関係なデータのサンプルに基づいて2つの母集団の中心傾向を比較したい場合は、Studentのt検定よりも不等分散t検定を常に使用する必要があります。またはMann-Whitney U検定。
In:
Ruxton、GD、2006 。不等分散t検定は、スチューデントのt検定およびMann-Whitney U検定の未使用の代替です。 行動。ECOL。17、688–690。

2番目の(古い)推奨事項は、クームス​​らによるものです。(1996、P 148。):「要約すると、独立したサンプルのt検定は、等しい母分散の仮定に違反した場合でも、十分に大きな同等サイズのサンプルがあるタイプI誤差率を制御するという点で、一般的に許容される提供される。等しくないためただし、分布が短い対称または正規分布の場合は、ジェームズの2次検定を使用します。有望な代替法には、Wilcox HおよびYuenトリム平均検定があります。ウェルチテストまたはジェームズテストよりもタイプIのエラー率をより幅広く制御し、データが長い場合に強力になります。」(強調を追加)

Coombs WT、Algina J、Oltman D.1996。母分散が必ずしも等しくない場合のタイプIエラー率を制御するために選択された単変量および多変量のオムニバス仮説検定Rev Educ Res 66:137–79。


3
メタレスポンス:良い点。しかし、あなたのデータは私のように振る舞わないかもしれません!:-)
whuber

ヘンリック、次の答えを編集してもいいですか?(1)テストスチューデントのt検定とウェルチのt検定を呼び出すことで用語を変更します(ほとんどの文学に見られるように)。(2)議論にそれを示唆する別の論文rips-irsp.com/article/10.5334/irsp.82を含めます(Leveneの同質性テストに基づいてテストを選択する際に生じるバイアスを強調します)。
ブルーノ

13

もちろん、両方のテストを終了し、ベイズt検定(Savage-Dickey比検定)の使用を開始することができます。帰無仮説(つまり、「拒否に失敗した」という古い話はもうありません)

このテストは実装が非常に簡単(かつ高速)であり、ベイジアン統計に詳しくない読者に、Rスクリプトとともにその使用方法を明確に説明する論文があります。基本的には、データを挿入するだけでコマンドをRコンソールに送信できます。

Wetzels、R.、Raaijmakers、JGW、Jakab、E.、&Wagenmakers、E.-J. (2009)。帰無仮説に対する支持とそれに対する支持を定量化する方法:デフォルトのベイジアンt検定の柔軟なWinBUGS実装。

サンプルデータを含むこれらすべてのチュートリアルもあります。

http://www.ruudwetzels.com/index.php?src=SDtest

これは尋ねられたものに対する直接的な応答ではないことは知っていますが、読者はこの素晴らしい代替手段を楽しんでいると思います

乾杯


8
常にこれらのベイジアンの男...-
ヘンリック

3
t検定の別のベイジアン代替は、KruschkeのBEST(ベイズ推定がt検定に取って代わる)ルーチンです。詳細:indiana.edu/~kruschke/BEST。オンライン版はこちら:sumsar.net/best_online
ラスマスバース

7

正確な結果は近似よりも望ましいため、近似が正確な方法とは異なる結果につながる可能性がある奇妙なエッジの場合は避けてください。

ウェルチ法は、古いt検定を行うための迅速な方法ではありません。それは、非常に難しい問題、つまり不等分散の下でt検定を作成する方法の扱いやすい近似です。等分散の場合は十分に理解されており、単純で正確です。したがって、可能な場合は常に使用する必要があります。


6
私はジョン・テューキーにもっと同意する傾向があると思います-「間違った質問に対する正確な答えは常に正確にすることができますが、しばしば曖昧な正しい質問に対するおおよその答えははるかに良いです。
Glen_b

4
等分散(スチューデント)t検定自体は、母集団サンプルの分散が等しくない場合の(理解されない)近似にすぎません。したがって、母分散が等しいことがわかっていない限り、データモデルに適用されない完全に正確な分布を使用するよりも、正しいサンプリング分布(Welch-Satterthwaite)の近似値を使用することをお勧めします。
whuber

4

私が考えることができる2つの理由:

  1. 通常のスチューデントのTは、サンプルサイズが等しい場合、不均一分散に対して非常に堅牢です。

  2. データがホモセダスティックであることをアプリオリに強く信じている場合は、ウェルチのTの代わりにスチューデントのTを使用することで何も失わず、わずかなパワーを得ることができます。

私が説明しない理由の1つは、スチューデントのTが正確であり、ウェルチのTがそうではないことです。スチューデントのTの正確さは、正規分布データに対してのみ正確であり、実際のデータは正確に正規分布されないため、アカデミックです。分布がすべての実数をもっともらしくサポートできる場所で、人々が実際に統計的に測定および分析する単一の量を考えることはできません。たとえば、宇宙には非常に多くの原子しかなく、一部の量は負にはなり得ません。したがって、実際のデータに対して何らかの種類のT検定を使用すると、とにかく近似を行うことになります。


2
(1)基礎となる母集団の分散が大きく異なる場合は正しくありません。極端なケースとして、なぜこれがそうなのかを理解するために、1つの母集団にまったく分散がない場合に何が起こるかを検討してください。スチューデントtは、実質的に他の母集団からのデータを定数と比較することになりますが、2倍の自由度があると考えられます。このエラーは、Zテストを使用した場合と同等です。
whuber

これは@whuberに当てはまりますが、それは非常に極端な場合のみです。私は1e6:1の分散の差とp≒.053だけを見ていました。それが起こることができますが、私はまだそれが等しいN.とかなり堅牢だと主張したいので
ジョン・

n

@whuber、上記のコメントは技術的に真実ですが、ウェルチ補正はあなたが例として提起する問題の解決策ではなく、アルファレートの観点からテストの堅牢性についてもそれほど重要ではないことを提案しています(これは(1)が通常意味するものです)。あなたが示唆するように、(極端な)不等分散が他の問題を抱えている問題であるとき、それは本当に異なるトピックです。
ジョン

3

何らかの仮定がチェックされると、より複雑なものがより複雑でないものに減少するという事実は、より単純な方法を捨てるのに十分ではありません。


4
特に学生が関係している場合。
マットパーカー

2

ここで反対の見方をします。ペアになっていない標準のスチューデントのt検定でほぼ同じ結果が得られるのに、なぜウェルチ検定に煩わされるのか。私はしばらく前にこの問題を研究し、t検定を打ち破り、Welch検定を支持するために、さまざまなシナリオを調査しました。そのために、あるグループと他のグループで最大5倍のサンプルサイズを使用しました。また、あるグループと他のグループで最大25倍の分散を調査しました。そして、それは本当に重要な違いをもたらさなかった。対応のないt検定では、ウェルチ検定とほぼ同じ範囲のp値が生成されました。

私の作品は次のリンクで見ることができ、特にスライド5と6に焦点を当てています。

http://www.slideshare.net/gaetanlion/unpaired-t-test-family


申し訳ありませんが、大きなサンプルの処方と小さなサンプルの処方を区別していますか?母集団分散の標本推定値を使用するのではなく、大規模標本で母集団公式を使用して分散を計算していますか?
ラッセルピアス

ペアになっていないスチューデントのt検定には2つの式があります。大規模なサンプル式は、30を超える観測値を持つサンプルに適用されます。小さいサンプルの式は、30未満の観測値を持つサンプルに適用されます。これらの式の主な違いは、プールされた標準誤差の計算方法です。小さなサンプルの式は、はるかに複雑で直感に反します。そして、実際には、実際にはほとんど違いがありません。私はそれを数回テストしました。だから、ほとんどの人はこの区別を忘れていると思います。そして、彼らはほとんどの場合、大規模なサンプル式を使用します。
Sympa

0

少なくともエラーについては、ウェルチ補正テストの頻度の高い特性が通常のスチューデントのTよりも優れていることは事実です。私はそれだけがウェルチテストのかなり良い議論であることに同意します。ただし、Welch修正を使用することはしばしば欺de的であるため、私は通常、Welch修正を推奨することに消極的です。確かに、テスト自体に対する批判ではありません。

ウェルチ補正を推奨しない理由は、自由度とp値が引き出される理論上の分布を変更するだけではないためです。テストをノンパラメトリックにします。ウェルチ補正t検定を実行するために、1つの分散がプールされますが、分散は等しいと見なすことができますが、最終的なテスト手順を変更し、分散が等しいと見なすことができないか、サンプルの分散のみを考慮するようにします。これは、プールされた分散が母集団の非代表と見なされ、観測値をテストしているだけであることを認めたため、ノンパラメトリックテストになります。

それ自体は、特に悪いことは何もありません。ただし、a)通常、十分な特異性で報告されていないため、私はそれを欺いています。およびb)それを使用する人々は、t検定と同じ意味でそれについて考える傾向があります。公開された論文で行われたことを知っている唯一の方法は、t分布の奇妙なDFを見たときです。これは、Rexton(Henrikの回答で参照)がレビューで伝えることができる唯一の方法でもありました。残念ながら、ウェルチ補正検定のノンパラメトリックな性質は、自由度が変化したかどうかに関係なく発生します(サンプルの分散が等しい場合でも)。しかし、この報告の問題は、ウェルチ補正を使用するほとんどの人が、テストへのこの変更が発生したことを認識しないという事実の徴候です。

したがって、このため、ノンパラメトリックテストを推奨する場合は、パラメトリックであると思われるテストを少なくとも使用しないでください。テストの正式名称は、ノンパラメトリックウェルチ修正Tテストである必要があります。人々がそれをそのように報告したなら、私はヘンリクの推薦でもっと幸せになるでしょう。


ウェルチテストが「欺cept的」である理由については、回答にサポートが見つかりませんでした。その根拠を説明してもらえますか?
whuber

おそらく、私の編集によって@whuberが明確になったのでしょう。欺くことが保証されているわけではありませんが、多くの場合、テストのユーザーとテスト結果の読者の両方に対してであることが明確になっているはずです。
ジョン

1
ありがとうございました。レポートの問題は別として、テストの欠点だと評価するのは不公平です!-これは、Welchテストがノンパラメトリックであるという何らかの異論に帰着するようです。おそらく何が問題なのでしょうか? Ceteris paribusは、問題ではなく、アドバンテージと見なされる必要があります。
whuber

1
それは一般に明らかにされていない区別です。私はそれがそれ自体問題ではないことを答えで認めますが、ほとんどの人はそれをパラメトリックに扱う傾向があり、これはエラーです。ここは、ノンパラメトリックテストの利点やコストについて議論する場所ではないと思います。また、スレッドでは言及されていなかったため、多くの人にとって問題になる可能性があります。余談ですが、イントロ統計クラスの2つは、スチューデントのt検定と並行してそれを教え、促進しますが、ノンパラメトリック検定についてはまったく別のセクションがあります。
ジョン

「テストをノンパラメトリックにします」とはどういう意味ですか?
-Glen_b
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.