CLT(少なくともその様々な形態のいくつかでは)限界のようなことを教えてくれる単一の標準化されたサンプルの平均(分布)正規分布に収束します(いくつかの条件下で)。n→∞X¯−μσ/n√
CLTはまたはで何が起こるかを教えてくれません。n=50n=50,000
しかし、CLTの動機付けを試みる際に、特にCLTの証明が提供されない場合、一部の人々は、有限サンプルについてのサンプリング分布に依存し、サンプリングが大きくなるにつれて、サンプリング分布が正常。X¯
厳密に言えば、これはCLTを示すものではなく、正規表現へのアプローチの速度について何かを示しているので、ベリーエッセンの定理を示すほうが近いです。動機付けとして十分に機能します(実際、ベリーエッセンのようなものが、実際に有限サンプルで実際に使用したいものに近づくことが多いため、動機付けは、ある意味で、中心極限定理自体よりも実際に役立つことがあります) 。
これらの標本平均の分布は正常です。
まあ、いいえ、それらは通常ではありませんが、実際には通常に非常に近くなります(高さはややスキューですが、それほどスキューではありません)。
[CLTがサンプル平均の動作について何も伝えていないことに注意してください。これは、以前のBerry-Esseenの議論で私が得ていたものであり、標準サンプルの分布関数が有限サンプルに対してどれほど通常の累積分布関数から離れているかを扱います]n=50
私が考えている実際のケースは、50,000人のTwitterユーザーのデータセットで統計を行うことです。そのデータセットは明らかに繰り返されるサンプルではなく、50,000の1つの大きなサンプルにすぎません。
多くの分布では、50,000アイテムのサンプル平均は正規分布に非常に近くなりますが、n = 50,000であっても、正規分布に非常に近いことは保証されません(個々のアイテムの分布が十分である場合)たとえば、傾斜している場合、サンプル平均の分布は、通常の近似を不可能にするのに十分なほど歪んでいる可能性があります)。
(Berry-Esseenの定理は、まさにその問題が発生する可能性があることを予測するように導きます-そして、明らかに、それが発生します。CLTが適用される例を示すのは簡単ですが、n = 50,000は、標準化されたサンプルは、通常に近いことを意味します。)