-testと


20

背景:私は仮説テストの仕事をしている同僚にプレゼンテーションを行っており、そのほとんどをうまく理解していますが、他の人に説明するだけでなく、理解しようとする結び目で自分を縛っている側面があります。

これは私が知っていると思うことです(間違っている場合は修正してください!)

  • 分散がわかっている場合は正常な統計、分散が不明な場合はt分布に従う
  • CLT(中央極限定理):サンプル平均のサンプリング分布は、十分に大きいに対してほぼ正規ですn30になる可能性があり、大きく歪んだ分布の場合は最大300になる可能性があります)
  • t -distributionは、自由度のために通常考慮することができる>30

次の場合に -testを使用します。z

  1. 母集団の正規分布と分散が既知(任意のサンプルサイズ)
  2. 集団正常、分散不明、(CLTによる)n>30
  3. 人口二項、n q > 10np>10nq>10

次の場合に -testを使用します。t

  1. 母集団は正常、分散は不明、n<30
  2. 母集団または分散に関する知識はなく、ですが、サンプルデータは正常に見える/テストなどに合格しているため、母集団は正常であると見なすことができますn<30

だから私は残っています:

  • サンプルについて< 300(?)、人口と知られている分散/不明についての知識がありません。>30<≈300

だから私の質問は:

  1. サンプリング分布が非正規に見える場合、平均のサンプリング分布が正常である(つまり、CLTが作動している)と仮定できるのは(母集団の分布または分散に関する知識がない場合)です。一部のディストリビューションにはが必要であることは知っていますが、n > 30の場合は常にzテストを使用すると言うリソースがあるようです...n>300zn>30

  2. よくわからない場合は、データが正常かどうかを調べます。サンプルデータが正常に見える場合、検定を使用します(母集団が正常であり、n > 30であるため)。zn>30

  3. 不明なケースのサンプルデータが正常に見えない場合はどうですか?まだ -testまたはz -testを使用する状況がありますか、または常にノンパラメトリックテストを変換/使用することを検討していますか?CLTにより、nの値によって平均のサンプリング分布は正規に近似することがわかりますが、サンプルデータはそのnの値が何であるかを教えてくれません。サンプルデータは非正規であり、サンプル平均はnormal / tに従います。実際に平均のサンプリング分布が正規/ tであったが、それがわからなかったときに、ノンパラメトリック検定を変換/使用する場合がありますか? tznntt


4
非常に歪んだ分布の場合、最大300になる可能性があります」...場合によっては、さらに多くのことになる可能性があります。またはそれは決して起こらないかもしれません。任意の選択すると、それが十分でない場合を示します。n
グレン_b-モニカの復帰14

Glen_bに感謝します。パラメトリックを使用するためにサンプルデータが常に正常に見えることを常に確認してください。
ハッティ14

@Hattiいや!T検定は、データが正常ではない場合に有効です。
AdamO 14

回答:


24

@AdamOは正しいです。事前に母標準偏差がわからない場合は、常にt使用するだけです。t分布が「スイッチ」するため、zテストにいつ切り替えるかを心配する必要はありません。より具体的には、t分布は正規分布に収束するため、すべてのNで使用する正しい分布です。 ttN

N=30従来のラインの意味についても混乱があります。人々が話す2種類の収束があります。

  1. 1つ目は、SDがデータから推定されるという事実にもかかわらず、正規分布(グループ内)の生データから計算された検定統計量(つまりt)のサンプリング分布がNとして正規分布に収束することです。(上記のように、t分布がこれを処理します。)
  2. 2番目は、非正規分布(グループ内)生データの平均のサンプリング分布は、Nとして正規分布(上記よりもゆっくり)に収束することです。人々は、中央極限定理を頼りにこれを処理します。ただし、妥当なサンプルサイズ内で収束するという保証はありません30(または300)がマジックナンバーであると信じる理由は確かにありません。非正規性の大きさと性質によっては、非常に時間がかかる場合があります(@Macroの答え:OLS残差が正規分布していない場合の回帰を参照))。あなたは(グループ内の)生のデータは非常に正常でないと思われる場合は、そのようなテストの異なる種類、使用する方が良いかもしれマン・ホイットニーのU検定を。非正常データでは、Mann-Whitney Uテストはtテストよりも強力である可能性が高く、CLTが有効になっている場合でもそうなる可能性があることに注意してください。そう見る、道に迷ってあなたをリードしていること:「基本的に役に立たない」正規のテストですか?

とにかく、質問をより明確に答えるために、(グループ内の)生データが正規に配布されていないと思われる場合は、Mann-Whitney Uテストを使用してください。データが正常に配信されていると思われるが、SDが先験的にわからない場合は、t使用します。データが正常に配信され、SDがアプリオリであるとわかっている場合は、z -testを使用します。

@GregSnowの最近の答えを読むのに役立つかもしれません:これらの問題に関するRの2つの小さなグループ間の比率を比較する際のp値の解釈


おかげで、これは本当に役に立ちました。大きなnのt検定が通常に近づくにつれて、私はそれを過度に複雑にしていることを知っていました。厳密に言えば、nが1000であったとしても、SDが事前に知られていない場合はt検定を使用する必要がありますか?
ハッティ14

どういたしまして。厳密に言えば、はい、しかしその時点での分布と正規分布の違いを見分けるのは非常に難しいことに注意してください。t
GUNG -復活モニカ

はい、間違いなく。非常に細かくて申し訳ありませんが、それを他の人に非常に白黒で説明する方法を考えるのは難しいだけです。あなたの助けに感謝します!
ハッティ14

また、t検定の結果を計算することは、今日では意味のある追加の計算コストなしで、すべての意図と目的のためであることに注意してください。すべてのケースをカバーできない紙の表でテスト統計を検索することはもうありません。ただコンピューターに尋ねています。それでは、なぜz-testを使用しても同じ結果が得られるかどうかを気にし、心配するのはなぜですか?
ビョルン

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.