t検定の「ほぼ正常」の評価

Welchのt検定を使用して平均の等価性をテストしています。基礎となる分布は、通常とはほど遠いです（関連する議論の例よりも歪んでいます）。より多くのデータを取得できますが、その範囲を決定する原則的な方法が必要です。

サンプルの分布が許容可能であるという評価を行うための優れたヒューリスティックはありますか？正規性からの逸脱が最も懸念されるのはどれですか？
サンプル統計のブートストラップ信頼区間に依存する他のアプローチがありますか？

— コホーズ
ソース

これは素晴らしい質問です。以外に、正規性テストは「本質的に役に立たない」のですか？（既にリンクされています）、さらに2つの関連する質問があります：t検定またはノンパラメトリック検定の選択方法（小さなサンプルでのウィルコクソンなど）およびN> 50の場合の非正常のT検定？この質問に対する適切な回答は、これら2つの関連する質問の読者にとって価値がある可能性があります。

— シルバーフィッシュ

私が知る限り、分布が「十分に正常」であるために必要なデータ量を決定する原則的な方法はありません。これは、「十分に正規」を定義するのが難しく、正規性から逸脱する特定の方法に加えて、基礎となる分布が非正規であるかどうかに依存するためです。深刻な非正常データがある場合は、代わりにノンパラメトリックテストを使用します。欠点は、孤立仮説検定よりも有用な信頼区間を取得できないことです。

— dsaxton

「十分に普通」を定義するのは難しいが、すべての実務家は経験的データについて推論する前に評価を行わなければならないことに同意します。。ここで私が念頭に置いているユースケース（これは十分に一般的だと思います）のノンパラメトリックテストは、「十分に正常な」サンプリング分布を確保するために、より多くのデータを収集するのに比べて不十分です。

— cohoz

通りのt検定正規性を仮定して、あなたの根本的な分布が正常でない、サンプル配布が受け入れ可能であることを判断の原則に基づいた方法が存在することはできません。しかし、サンプルサイズが中に「大」、中心極限定理キックを、取得しますが、基本的にとあなたに同じ答えを与える大規模な標本z検定、使用することができるようトンので、検定をtが正規分布に近づきます大きなサンプル。

統計書/コースは、25または30のサンプルサイズでCLTが有用な方法で作用することをしばしば意味します。しかし、私の経験では、数百の大規模なサンプルz-testのサンプルサイズでも、かなり貧弱な場合があります（例：カウントデータ）。

私の意見では、順列検定はあなたの問題にぴったりです。既定のノンパラメトリックテスト（Mann-Whitneyなど）と同等以上のパワーを備えている必要があり、正規性の問題を心配する必要はありません。そして、彼らは書くのが楽しいです。

— ティム
ソース