回答:
小さいサンプルと大きいサンプルの境界に対するn = 30 の選択は、経験則にすぎません。たとえば、Hogg and Tanisの確率と統計的推論(7e)が「25または30を超える」と言っているこの値を引用する書籍が多数あります。
そうは言っても、30が良い境界と見なされた唯一の理由は、教科書の裏にあるかなりのスチューデントのtテーブルが1ページにうまく収まるようになったからだということです。それと、臨界値(スチューデントのtと法線の間)は、df = 30からdf =無限までとにかく、およそ0.25までしかオフになりません。手計算では、違いは実際には重要ではありませんでした。
今日では、あらゆる種類の重要な値を小数点以下15桁まで簡単に計算できます。その上、リサンプリングと置換の方法がありますが、これらの方法はパラメトリックな母集団の分布に制限されていません。
実際には、n = 30に依存することはありません。データをプロットします。必要に応じて、正規分布を重ね合わせます。通常の近似が適切かどうかを視覚的に評価します(さらに、近似が本当に必要かどうかを尋ねます)。研究用のサンプルと近似値の生成が必須である場合、近似値を必要に応じて(または計算上実行可能な範囲で)近づけるのに十分なサンプルサイズを生成します。
実際、「マジックナンバー」30は誤りです。JacobのCohenの楽しい論文「私が学んだこと(これまで)」(Am。Psych。December 1990 45#12、pp 1304-1312)を参照してください。この神話は、「あなたが学ぶことはそうではない」という彼の最初の例です。
[O]私の仲間の博士候補者のうちの1人が、グループごとにわずか20例のサンプルで論文を引き受けました。... [L] ater私は、2つの独立したグループ平均を比較し、両側レベルでグループごとに場合、中規模の効果がラベル付けされる確率によって重要なのは... tテストはたったのでした。このように、実際には効果の大きさには意味がありましたが、重要な結果が得られるかどうかはほぼコインフリップでした。... [私の友人]は、重要ではない結果になりました。それによって、彼は精神分析理論の重要な分野を破壊し始めました。
ほぼ任意の経験則。このステートメントは、多くの要因に依存します。たとえば、データの分布について。たとえば、データがコーシーからのものである場合、平均値を推定するには30 ^ 30の観測値でも十分ではありません(その場合、を引き起こすには無限の観測値でも十分ではありません収束する)。この数値(30)は、描画する値が互いに独立していない場合も偽です(再び、サンプルサイズに関係なく、収束しないことがあります)。
より一般的には、CLTを保持するには基本的に2つの柱が必要です。
(これらの条件はどちらも多少弱くなる可能性がありますが、違いは主に理論的な性質です)