中心極限定理に大きなサンプルサイズが必要な分布の例


19

一部の書籍では、中心極限定理が適切に近似するために、サイズ30以上のサンプルサイズが必要であると述べてい。 X¯

これはすべてのディストリビューションに十分ではないことを知っています。

サンプルサイズが大きい場合(おそらく100、1000、またはそれ以上)でも、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思います。

私は以前にそのような例を見たことがあることを知っていますが、どこにあるか思い出せず、見つけることができません。


5
形状パラメーターガンマ分布を考えますα。スケールを1としてください(重要ではありません)。あなたが考えて言ってみましょうGamma(α0,1)としてだけで「十分に正常な」。そして、1000個の観測値を十分に正規化する必要がある分布には、分布があります。Gamma(α0/1000,1
Glen_b -Reinstateモニカ

1
@Glen_b、それを公式の回答にして、少し開発してみませんか?
GUNG -復活モニカ

4
@Glen_bの例と同じ行に沿って、十分に汚染された分布が機能します。たとえば、基礎となる分布がNormal(0,1)とNormal(huge value、1)の混合であり、後者が現れる確率がごくわずかである場合、興味深いことが起こります:(1)ほとんどの場合、汚染は現れず、歪みの証拠はありません。しかし、(2)汚染が現れることがあり、サンプルの歪みが非常に大きい場合があります。サンプル平均の分布は、それにもかかわらず、非常にゆがみますが、ブートストラップ()は通常それを検出しません。
whuber

1
@whuberの例は有益であり、理論的には、中心極限定理がarbitrarily意的に誤解を招く可能性があることを示しています。実際の実験では、めったに発生しない大きな影響があるかどうかを自問し、少し慎重に理論的な結果を適用する必要があると思います。
デビッドエプスタイン

回答:


19

いくつかの書籍がサイズ30以上のサンプルサイズは、適切な近似与えるために中心極限定理のために必要されている状態バツ¯

この一般的な経験則は、ほとんどまったく役に立ちません。n = 2で問題のない非正規分布と、はるかに大きいでは不十分な非正規分布があります。したがって、状況に対する明示的な制限がない限り、ルールは誤解を招きます。いずれにせよ、たとえそれが真であったとしても、必要なnはあなたが何をしていたかによって異なります。多くの場合、小さなnの分布の中心付近で適切な近似が得られますが、テールで適切な近似を得るには、はるかに大きなnが必要です。nnnn

編集:この問題に関する多数の、しかし明らかに全会一致の意見、およびいくつかの良いリンクについては、この質問への回答を参照してください。あなたはすでにそれを明確に理解しているので、私は要点を説明しません。

大きなサンプルサイズ(100または1000以上)であっても、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思っています。

例は比較的簡単に構築できます。1つの簡単な方法は、非正規の無限に分割可能な分布を見つけて分割することです。平均または合計したときに法線に近づくものがある場合は、「法線に近い」の境界から始めて、好きなだけ分割します。たとえば、次のとおりです。

形状パラメーターガンマ分布を考えます。スケールを1としてください(スケールは重要ではありません)。あなたが考えて言ってみましょうガンマα 01 単に「十分に正常な」と。そして、あなたは1000回の観測が十分に正常であるように取得する必要のある分布があり、ガンマα 0 / 1000年1 分布を。αGamma(α0,1)Gamma(α0/1000,1)

したがって、ガンマが「正常」であると感じる場合-α=20

ガンマ(20)pdf

次に、を1000で除算して、α = 0.02を取得します。α=20α=0.02

ガンマ(0.02)pdf

それらの平均1000個は、最初のpdfの形状になります(ただし、そのスケールはありません)。

代わりに、コーシーなどの正規に近づかない無限に割り切れる分布を選択した場合、サンプル平均がほぼ正規分布を持つサンプルサイズがない場合があります(または、場合によっては正規に近づきますが、あなたはσ / √を持っていません標準エラーの影響)。σ/n

汚染された分布に関する@whuberのポイントは非常に良いものです。そのケースでいくつかのシミュレーションを試して、そのような多くのサンプルで物事がどのように動作するかを確認することは有益です。



9

このペーパーは役立つ(または少なくとも興味深い)かもしれません。

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

UMassの研究者は、実際にあなたが求めているものと同様の研究を実施しました。特定の分散データはどのサンプルサイズでCLTによる正規分布に従っていますか?どうやら心理学実験のために収集された多くのデータは正規分布に近いものではないので、この分野はCLTに大きく依存して統計を推測しています。

α=0.05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

奇妙なことに、正規分布データの65%がサンプルサイズ20で拒否され、サンプルサイズ30でも35%が拒否されました。

その後、Fleishmanのべき乗法を使用して作成されたいくつかの大きく歪んだ分布をテストしました。

Y=aX+bX2+cX3+dX4

Xは正規分布から引き出された値を表し、a、b、c、およびdは定数です(a = -cに注意してください)。

最大300のサンプルサイズでテストを実行しました

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

彼らは、スキューとクルトの最高レベル(1.75および3.75)で、サンプルサイズ300が正規分布に従うサンプル平均を生成しなかったことを発見しました。

残念ながら、これがまさにあなたが探しているものだとは思いませんが、私はそれを偶然見つけて面白く、あなたもかもしれないと思いました。


4
奇妙なことに、正規分布のデータの65%がサンプルサイズ20で拒否され、サンプルサイズ30でも35%が依然として拒否されました。」-間違ったテストを使用しているようです。完全に指定された正常なデータの正常性のテスト(テストの目的)として、彼らがそれを正しく使用している場合、それは正確でなければなりません
Glen_b -Reinstateモニカ

5
@Glen_b:ここには潜在的なエラーの原因が複数あります。ドキュメントを読むと、ここで「通常」と表示されているのは、実際には平均50で最も近い整数に丸められた標準偏差10の通常のランダム変量であることに注意してください。したがって、その意味で、使用されるテストはすでに誤って指定された分布を使用しています。第二に、まだ、彼らが20回の、このような観測を使用して、サンプルの平均のため、拒否確率は27%程度であることを、複製ショーで私の試みとして、間違ってテストを行っています表示されます。(続き)
カーディナル

5
(続き)3番目に、上記に関係なく、一部のソフトウェアは実際の分布ではなく漸近分布を使用する場合がありますが、サンプルサイズが10Kの場合、これはあまり重要ではありません(データに人為的に誘導が誘導されていない場合)。最後に、そのドキュメントの終わり近くで、次のやや奇妙な声明を見つけます。残念ながら、S-PLUSのKSテストの特性により作業が制限されます。本研究のp値はすべて、複数の複製を手作業で編集しました。p値を計算し、選択したアルファレベルと比較して判断するプログラムが必要です。
枢機

3
こんにちは@Glen_b。丸められたデータを使用して真の標準正規分布に対してテストしていると考えているため、ここでの丸めが拒否率を低下させるとは思わない(これは、テストが誤って指定された分布を使用したという意味です)。(代わりに、離散分布でKSテストを使用することを考えていたのかもしれません。)KSテストのサンプルサイズは20ではなく10000でした。テーブルを取得するために、サンプルサイズ10000で20回の複製を行いました。少なくとも、それは文書をざっと読むことからの説明の私の理解でした。
2013年

3
@cardinal-もちろんあなたは正しいので、多分それが大きなサンプルサイズでかなりの量の拒否の原因になる可能性があります。Re:「KSテストのサンプルサイズは20ではなく10000でした」... OK、これはますます奇妙に聞こえます。反対のことを言うのではなく、なぜこれらの条件のどちらかが非常に価値があると思うのか疑問に思う人がいます。
Glen_b-モニカを復元
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.