中心極限定理が単一のサンプルで機能するのはなぜですか?


12

私は常に、各サンプルが十分な大きさで、サンプリングを繰り返したときにCLTが機能することを教えられてきました。たとえば、私が100万人の国民の国を想像してみてください。CLTについての私の理解は、高さの分布が正常でなかったとしても、50人のサンプルを1000個取り(つまり、それぞれ50人の市民を1000回調査し)、各サンプルの平均高さを計算すると、これらのサンプルの分布であると理解しています。手段は正常です。

しかし、研究者が繰り返しサンプルを採取した実際のケースを見たことがありません。代わりに、彼らは1つの大きなサンプル(つまり、身長について50,000人の市民を調査する)を取得し、そこから作業します。

統計の本が繰り返しサンプリングを教えており、現実の世界では研究者が単一のサンプルしか実施していないのはなぜですか?

編集:私が考えている現実のケースは、50,000人のTwitterユーザーのデータセットで統計を行うことです。そのデータセットは明らかに繰り返されるサンプルではなく、50,000の1つの大きなサンプルにすぎません。


50,000から1000のサンプルを取得することは、50,000から独立して1000の単一サンプルを取得することとほぼ同じです。サンプルが小さいほど(または宇宙が大きいほど)、それらは同じように見えます。
Thomas Ahle 2016年

回答:


14

CLT(少なくともその様々な形態のいくつかでは)限界のようなことを教えてくれる単一の標準化されたサンプルの平均(分布)正規分布に収束します(いくつかの条件下で)。nX¯μσ/n

CLTはまたはで何が起こるかを教えてくれません。n=50n=50,000

しかし、CLTの動機付けを試みる際に、特にCLTの証明が提供されない場合、一部の人々は、有限サンプルについてのサンプリング分布に依存し、サンプリングが大きくなるにつれて、サンプリング分布が正常。X¯

厳密に言えば、これはCLTを示すものではなく、正規表現へのアプローチの速度について何かを示しているので、ベリーエッセンの定理を示すほうが近いです。動機付けとして十分に機能します(実際、ベリーエッセンのようなものが、実際に有限サンプルで実際に使用したいものに近づくことが多いため、動機付けは、ある意味で、中心極限定理自体よりも実際に役立つことがあります) 。

これらの標本平均の分布は正常です。

まあ、いいえ、それらは通常ではありませんが、実際には通常に非常に近くなります(高さはややスキューですが、それほどスキューではありません)。

[CLTがサンプル平均の動作について何も伝えていないことに注意してください。これは、以前のBerry-Esseenの議論で私が得ていたものであり、標準サンプルの分布関数が有限サンプルに対してどれほど通常の累積分布関数から離れているかを扱います]n=50

私が考えている実際のケースは、50,000人のTwitterユーザーのデータセットで統計を行うことです。そのデータセットは明らかに繰り返されるサンプルではなく、50,000の1つの大きなサンプルにすぎません。

多くの分布では、50,000アイテムのサンプル平均は正規分布に非常に近くなりますが、n = 50,000であっても、正規分布に非常に近いことは保証されません(個々のアイテムの分布が十分である場合)たとえば、傾斜している場合、サンプル平均の分布は、通常の近似を不可能にするのに十分なほど歪んでいる可能性があります)。

Berry-Esseenの定理は、まさにその問題が発生する可能性があることを予測するように導きます-そして、明らかに、それが発生します。CLTが適用される例を示すのは簡単ですが、n = 50,000は、標準化されたサンプルは、通常に近いことを意味します。)


50,000が十分に大きいかどうかを確認するには、たとえばRでシミュレーションを実行できますか?サンプルの平均値と標準偏差を使用しますが、サンプルの同じ分布から確実にシミュレーションするにはどうすればよいですか?
Amonet

厳密に言うと、人口分布からシミュレーションする必要があります。サンプルの分布を人口分布の推定値として扱うこともできます(これはブートストラップに似ています)-これはそのような目的には適切ではありません。例として、コーシー分布からサンプルを抽出し、それを置き換えて再サンプリングすることを検討してください。(ますます大きなサンプルの場合)、再サンプリングされた平均の分布が「十分に正常」に表示されるまで。あなたは常にいくつかの有限のサンプルサイズで十分であると結論付けますが、実際にはそうではありません。
Glen_b
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.