独立サンプルt検定:サンプルサイズが大きい場合、データを本当に正規分布させる必要がありますか?


13

2つの独立したサンプルの平均が異なるかどうかをテストするとします。基礎となる分布が正規でないことは知っています

正しく理解していれば、検定統計量は平均値であり、十分な大きさのサンプルサイズの場合、サンプルがそうでなくても平均値は正規分布になるはずです。したがって、この場合、パラメトリック有意性検定が有効である必要がありますか?私はこれについて矛盾し混乱する情報を読んだので、いくらかの確認(または私が間違っている理由の説明)に感謝します。

また、サンプルサイズが大きい場合は、t統計ではなくz統計を使用する必要があることを読みました。しかし実際には、t分布は正規分布に収束するだけで、2つの統計量は同じである必要がありますか?

編集:以下は、z-テストを説明するいくつかのソースです。両方とも、母集団は正規分布しなければならないと述べています。

ここでは、「使用するZ検定のタイプに関係なく、サンプルの抽出元の母集団は正常であると想定されています」と書かれています。そして、ここで、z検定の要件は、「2つの正規分布しているが独立した母集団、σは既知」としてリストされています。


あなたが言っていることは理にかなっています。中央極限定理を使用して、標本平均の分布の正規性を仮定しています。また、母分散がないためt検定を使用しており、サンプル分散に基づいて推定しています。しかし、これらの競合するソースをリンクまたは投稿できますか?
アントニ・パレラダ

お返事をありがとうございます!ここで、例えば、z検定の要件は「2つの正規分布しているが独立した母集団、σは既知」としてリストされているので、平均ではなく母集団の分布について話している-それは間違っていますか?
リサ

@AntoniParellada元の投稿にいくつかのソースを組み込みました!
リサ


元の母集団が正常であることがわかっている場合、完璧で不変の状況になります。ただし、リンクされた論文に示されているこの非常に高い順序の条件に依存することを避けるために、特に大きなサンプルではCLTがしばしば存在します。
アントニ・パレラダ

回答:


7

これはCLTの一般的な誤解だと思います。CLTは、タイプIIエラー(ここでは誰も言及していません)を保持することとは関係がないだけでなく、母集団の分散を推定する必要がある場合には適用できないことがよくあります。データが非ガウスの場合、サンプルの分散はスケーリングされたカイ2乗分布から非常に遠くなる可能性があるため、サンプルサイズが数万を超えてもCLTが適用されない場合があります。多くの分布では、SDは分散の適切な尺度ではありません。

CLTを実際に使用するには、次の2つのいずれかが真でなければなりません。(1)サンプルの標準偏差は、真の未知の分布の分散の尺度として機能するか、(2)真の母標準偏差は既知です。ほとんどの場合そうではありません。また、n = 20,000がCLTが「機能」するには小さすぎる例は、このサイトの他の場所で説明されているように、対数正規分布からサンプルを描画することから得られます。

たとえば、分布が対称的で、ガウス分布よりも重い裾がない場合、サンプルの標準偏差は分散測定として「機能します」。

私の分析ではCLTに依存したくありません。


3
CLTはちょっとしたニシンかもしれません。サンプル平均が明らかに非正規分布であり、サンプルSDの形状が明らかに非カイであることがよくありますが、それでもt統計はスチューデントのt分布によって有効に近似されます(一部は2つの依存関係によるものです)統計)。これが当てはまるかどうかは、特定の状況で評価されるべきです。ただし、CLTは有限のサンプルについてほとんど主張していないため(そして、それらについて定量的には絶対に何も言わない)、通常、分布の仮定をサポートする呼び出しは無効です。
whuber

私たちが日常的に(そしておそらく無意識に)日常的に実行される手順(未知の分布からの2つのサンプル手段をt検定と比較)について議論している(私の場合は学習している)と言ってもいいでしょうか?正当化は弱い可能性がありますか?そして、実際にはCLTの使用はありますか?理想的ではないにしても、許容できる/受け入れられるでしょうか?
アントニ・パレラダ

-statistic非常に多くの場合、非常に遠くからである分布持っトンのデータが非ガウス分布から来るとき分布を。そして、はい、t検定を使用する正当性は、ほとんどの開業医が考えるよりも弱いと言えます。だからこそ、セミパラメトリック法とノンパラメトリック法を好むのです。ttt
フランクハレル

2
CLTは実際には漸近的なステートメントであり、ほとんどの人がそれを呼び出すと、頭の中のアイデアは本当にベリー・エッセンの定理のようなものだと思います(正規性への収束は「合理的な」レートで起こり、したがってサンプルサイズが「十分」です。しかし、このわずかに洗練された推論でさえ、t検定の有効性に関する誤った結論につながる可能性があります。この回答の中で、Berry–EsseenでさえCLTへの誤ったアピールを「保存」しないことを言及/強調する価値があるのだろうか。
シルバーフィッシュ

3
@FrankHarrell「サンプルの標準偏差が真の未知の分布の分散の尺度として機能する」とはどういう意味ですか?簡単な説明(たぶん1つの文)を回答に追加しておくと役立ちます。
mark999

9

おそらく、元の母集団の正規性の仮定は制限が厳しすぎて、サンプリング分布に焦点を当てることを忘れてしまう可能性があり、中心の制限定理のおかげで、特に大きなサンプルの場合は、コメントを意味のあるものにするためにこの段落を残しています。

(通常はそうですが)母分散を知らず、代わりに推定子としてサンプル分散を使用している場合、検定を適用することはおそらく良い考えです。プールされた分散を適用する前に、同一の分散の仮定を分散のF検定またはLavene検定でテストする必要があることに注意してくださいt

言及したように、サンプルが増加するにつれて、t分布は正規分布に収束します。このクイックRプロットは次のことを示しています。

ここに画像の説明を入力してください

赤は正規分布のpdfであり、紫は、自由度が最終的にブレンドされるまで自由度が増加するにつれて、分布のpdfの「太い裾」(またはより重い裾)の漸進的な変化を見ることができます通常のプロット。t

したがって、大規模なサンプルではzテストを適用しても大丈夫でしょう。


最初の答えで問題に対処します。Glen_b、OPのサポートに感謝します(解釈の新しい間違いの可能性は完全に私のものです)。

  1. 正規性仮定の下での分布におけるT統計的フォロー:

1サンプル対2サンプル(ペアおよび非ペア)の式の複雑さは別として、サンプル平均を母平均と比較する場合に焦点を当てた一般的なt統計は次のとおりです。

(1)t検定=バツ¯μsn=バツ¯μσ/ns2σ2=バツ¯μσ/nバツ=1nバツバツ¯2n1σ2

バツμσ2

  1. 1 N10
  2. 1s2/σ2n11n1χn12n1s2/σ2χn12
  3. 分子と分母は独立している必要があります。

t統計量tdf=n1

  1. 中心極限定理:

サンプルのサイズが増加するにつれて、サンプルのサンプリング分布の正規性に向かう傾向は、母集団が正規でない場合でも分子の正規分布を仮定することを正当化できます。ただし、他の2つの条件(分母のカイ二乗分布と分母からの分子の独立性)には影響しません。

しかし、すべてが失われるわけではありません。この投稿では、分母のカイ分布が満たされない場合でも、Slutzky定理が正規分布への漸近収束をどのようにサポートするかについて説明します。

  1. ロバストネス:

Sawilowsky SSとBlair RCによる心理学の報告、1992年、Vol。の「人口正規性からの逸脱に対するt検定のロバストネスとタイプIIエラープロパティのより現実的な外観」111、No。2、352-360では、電力およびタイプIのエラーについて、理想的ではない、または「現実世界」(正規ではない)分布をテストしましたが、次の主張が見つかります。これらの実際の分布の一部に対するt検定の誤差は、研究したさまざまな治療条件とサンプルサイズの出力レベルにはほとんど影響がありませんでした。

一般的な見方は、(a)サンプルサイズがほぼ等しいか、(b)サンプルである限り、タイプIのエラーに関する限り、独立サンプルt検定は非ガウスの母集団形状に対して適度にロバストであると思われます。サイズはかなり大きく(Boneau、1960、25〜30のサンプルサイズに言及)、(c)テストは片側ではなく両側です。また、これらの条件が満たされ、公称アルファと実際のアルファの違いが不一致は通常、リベラルな性質ではなく保守的なものです。

著者は、論争の的となっているトピックの側面を強調しており、Harrell教授が言及したように、対数正規分布に基づいたシミュレーションに取り組むことを楽しみにしています。また、ノンパラメトリック法(例:Mann–Whitney U test)とのモンテカルロ比較をいくつか考えたいと思います。進行中の作業です...


シミュレーション:

免責事項:以下は、「自分自身でそれを証明する」これらの演習の1つです。結果を使用して一般化することはできません(少なくとも私はそうではありません)が、この2つの(おそらく欠陥のある)MCシミュレーションは、状況でのt検定の使用を落胆させないように思えます説明した。

タイプIエラー:

n=50μ=0σ=1

ここに画像の説明を入力してください

54.5

実際、得られたt検定の密度のプロットは、t分布の実際のpdfと重なるように見えました。

ここに画像の説明を入力してください

最も興味深い部分は、t検定の「分母」、つまり、カイ2乗分布に従うことになっている部分を見たことです。

n1s2/σ2=9849SDA2+SDA2/98eσ21e2μ+σ2

ここでは、このウィキペディアのエントリのように、一般的な標準偏差を使用しています。

Sバツ1バツ2=n11Sバツ12+n21Sバツ22n1+n22

そして、驚くべきことに(またはそうではない)、プロットは重ね合わせたカイ2乗pdfとは非常に異なりました。

ここに画像の説明を入力してください

タイプIIのエラーと電力:

109

ここに画像の説明を入力してください50.02499

コードはこちらです。


1
これはCLTの一般的な誤解だと思います。CLTはタイプIIエラー(ここでは誰も言及していません)を保持することとは関係がないだけでなく、母集団の分散を推定する必要がある場合には適用できないことがよくあります。データが非ガウス分布の場合、サンプル分散はスケーリングされたカイ2乗分布から非常に遠くなる可能性があるため、サンプルサイズが数万を超えてもCLTが適用されない場合があります。多くの分布では、SDは分散の適切な尺度でさえありません。
フランクハレル

1
ハレル教授、それが間違っている場合、私は喜んでポストを削除します。これは非常に基本的な誤解である可能性があります。サンプルの分布に適用されるCLTが、サンプルの起源の分布に関係なく、大規模なサンプルで平均値とz検定またはt検定との比較を検証することを提案していました。これは正しくありませんか?
アントニ・パレラダ

1
(1)サンプルの標準偏差が真の未知の分布の分散の測定値として機能する場合、または(2)真の母集団の標準偏差がわかっている場合、それは正しいでしょう。ほとんどの場合そうではありません。そしてn = 20,000であることの例はるかに「仕事」へのCLTには小さすぎるが対数正規分布からのサンプルを描くから来ています。これらの点についての誤解は、20年の経験を持つ統計学の博士号の間で横行しています。
フランクハレル

5
問題は、リサ、平均を比較する必要があるのか​​、2つの母集団の場所を比較するだけなのか、ということです。一部のアプリケーションでは、平均値または合計に焦点を当てていますが、それを他のパラメータに置き換えることはほとんど役に立ちません。これは、特に人口がお金や環境汚染などの自然に累積した量である場合です。
whuber

3
アントニ、堅牢性に関する最後のセクションは非常に適切です。私は、サウィロスキーとブレアによって記述されたものと同様の多くの研究を行い、さらに多くを読みました。したがって、それらの結論は非常に特別な種類のデータに限定されるべきだと思います。分布が大きく歪んでいる場合、特に検定の観点から、t検定は惨めに失敗します。長年にわたって私を驚かせたのは、それが実際に正常から他の逸脱に対してかなり堅牢であり、ノンパラメトリックな手順であるという主張にある程度の妥当性が見られる点です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.