一部の書籍では、中心極限定理が適切に近似するために、サイズ30以上のサンプルサイズが必要であると述べてい。
これはすべてのディストリビューションに十分ではないことを知っています。
サンプルサイズが大きい場合(おそらく100、1000、またはそれ以上)でも、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思います。
私は以前にそのような例を見たことがあることを知っていますが、どこにあるか思い出せず、見つけることができません。
一部の書籍では、中心極限定理が適切に近似するために、サイズ30以上のサンプルサイズが必要であると述べてい。
これはすべてのディストリビューションに十分ではないことを知っています。
サンプルサイズが大きい場合(おそらく100、1000、またはそれ以上)でも、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思います。
私は以前にそのような例を見たことがあることを知っていますが、どこにあるか思い出せず、見つけることができません。
回答:
いくつかの書籍がサイズ30以上のサンプルサイズは、適切な近似与えるために中心極限定理のために必要されている状態。
この一般的な経験則は、ほとんどまったく役に立ちません。n = 2で問題のない非正規分布と、はるかに大きいでは不十分な非正規分布があります。したがって、状況に対する明示的な制限がない限り、ルールは誤解を招きます。いずれにせよ、たとえそれが真であったとしても、必要なnはあなたが何をしていたかによって異なります。多くの場合、小さなnの分布の中心付近で適切な近似が得られますが、テールで適切な近似を得るには、はるかに大きなnが必要です。
編集:この問題に関する多数の、しかし明らかに全会一致の意見、およびいくつかの良いリンクについては、この質問への回答を参照してください。あなたはすでにそれを明確に理解しているので、私は要点を説明しません。
大きなサンプルサイズ(100または1000以上)であっても、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思っています。
例は比較的簡単に構築できます。1つの簡単な方法は、非正規の無限に分割可能な分布を見つけて分割することです。平均または合計したときに法線に近づくものがある場合は、「法線に近い」の境界から始めて、好きなだけ分割します。たとえば、次のとおりです。
形状パラメーターガンマ分布を考えます。スケールを1としてください(スケールは重要ではありません)。あなたが考えて言ってみましょうガンマ(α 0、1 )単に「十分に正常な」と。そして、あなたは1000回の観測が十分に正常であるように取得する必要のある分布があり、ガンマ(α 0 / 1000年、1 )分布を。
したがって、ガンマが「正常」であると感じる場合-
次に、を1000で除算して、α = 0.02を取得します。
それらの平均1000個は、最初のpdfの形状になります(ただし、そのスケールはありません)。
代わりに、コーシーなどの正規に近づかない無限に割り切れる分布を選択した場合、サンプル平均がほぼ正規分布を持つサンプルサイズがない場合があります(または、場合によっては正規に近づきますが、あなたはσ / √を持っていません標準エラーの影響)。
汚染された分布に関する@whuberのポイントは非常に良いものです。そのケースでいくつかのシミュレーションを試して、そのような多くのサンプルで物事がどのように動作するかを確認することは有益です。
このペーパーは役立つ(または少なくとも興味深い)かもしれません。
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
UMassの研究者は、実際にあなたが求めているものと同様の研究を実施しました。特定の分散データはどのサンプルサイズでCLTによる正規分布に従っていますか?どうやら心理学実験のために収集された多くのデータは正規分布に近いものではないので、この分野はCLTに大きく依存して統計を推測しています。
Table 2. Percentage of replications that departed normality based on the KS-test.
Sample Size
5 10 15 20 25 30
Normal 100 95 70 65 60 35
Uniform 100 100 100 100 100 95
Bimodal 100 100 100 75 85 50
奇妙なことに、正規分布データの65%がサンプルサイズ20で拒否され、サンプルサイズ30でも35%が拒否されました。
その後、Fleishmanのべき乗法を使用して作成されたいくつかの大きく歪んだ分布をテストしました。
Xは正規分布から引き出された値を表し、a、b、c、およびdは定数です(a = -cに注意してください)。
最大300のサンプルサイズでテストを実行しました
Skew Kurt A B C D
1.75 3.75 -0.399 0.930 0.399 -0.036
1.50 3.75 -0.221 0.866 0.221 0.027
1.25 3.75 -0.161 0.819 0.161 0.049
1.00 3.75 -0.119 0.789 0.119 0.062
彼らは、スキューとクルトの最高レベル(1.75および3.75)で、サンプルサイズ300が正規分布に従うサンプル平均を生成しなかったことを発見しました。
残念ながら、これがまさにあなたが探しているものだとは思いませんが、私はそれを偶然見つけて面白く、あなたもかもしれないと思いました。