コインフリップのサンプルサイズを増やしても通常の曲線近似が改善されないのはなぜですか？

19

私は統計（Freeman、Pisani、Purves）の本を読んでいます。コインを50回投げ、頭の数を数え、これを1,000回繰り返した例を再現しようとしています。

最初に、トスの数（サンプルサイズ）を1000に保ち、繰り返し回数を増やしました。繰り返しが多いほど、データは標準曲線によく適合します。
そこで次に、繰り返し回数を1,000に固定して、サンプルサイズを増やしてみました。サンプルサイズが大きいほど、最悪の法線はデータに適合しているように見えます。これは、サンプルサイズが増加するにつれて正常曲線をよりよく近似する本の例と矛盾しているようです。
サンプルサイズを増やした場合にどうなるかを確認したかったのですが、10,000回に修正された反復回数が増えました。これは本とも矛盾しているようです。

私が間違っていることは何ですか？

以下のコードとグラフ。

%matplotlib inline

def plot_hist(num_repetitions, num_tosses):
    tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses])
    sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses)

    xmin, xmax = min(sums), max(sums)  
    lnspc = np.linspace(xmin, xmax, len(sums))

    m, s = stats.norm.fit(sums) # get mean and standard deviation  
    pdf_g = stats.norm.pdf(lnspc, m, s) # now get theoretical values in our interval  

    bins = np.arange(xmin, xmax) - 0.5
    step = int((xmax - xmin)/5)

    fig, ax = plt.subplots()
    _ = ax.hist(sums, bins, edgecolor='black', linewidth=1.2, density=True)
    _ = ax.plot(lnspc, pdf_g, label="Norm", color='red')
    _ = ax.set_xticks(bins[::step] + 0.5)
    _ = ax.set_title('{:,} tosses - {:,} repetitions'.format(num_tosses, num_repetitions))

1.繰り返し回数を増やして実験します（固定サンプルサイズ1000）

plot_hist(1000, 1000)

plot_hist(10000, 1000)

plot_hist(100000, 1000)

2.サンプルサイズを増やして実験します（1000回の繰り返しで修正）

plot_hist(1000, 100)

plot_hist(1000, 1000)

plot_hist(1000, 10000)

3.サンプルサイズを増やして実験します（10,000回の繰り返しで修正）

plot_hist(10000, 100)

plot_hist(10000, 1000)

plot_hist(10000, 10000)

plot_hist(10000, 100000)

normal-distribution central-limit-theorem normal-approximation

— クリス・スノー
ソース

9

より良いヒストグラムプロッターが必要です。これは特に貧弱で、アーティファクトを作成します。さらに良いことに、分布をヒストグラムではなく確率プロットと比較します。

— whuber

1

これは知っておくと便利で、今日の私の知識を増やしました。ありがとう！

— クリススノー

3

「繰り返し」は「投げる」ことではなく「サンプルサイズ」です。投げの回数を増やすことは、何か違うことです

— 火星

1

申し訳ありませんが、私は考え、考え、考えましたが、その用語には対応できません！ただし、トスの数に関係なく、最終的には1つの数字（ヘッドの数）が得られます。1つのサンプルが提供されます。

— 火星

1

：私は専門用語に焦点を当て、新たな疑問掲載しましたstats.stackexchange.com/questions/389892/...

— クリス雪の

27

2番目のケースでは、トスの数を増やすことにより、1回の試行に該当するビンの数を増やします。実験2の最初のケースには、最大100個のビンを入れることができますが、最後の例には10000個のビンがあります。実験の「解像度」を100倍に増やしました（つまり、最初の実験の1つのビンが2番目の実験で約100で表されるようになりました）。もちろん、これは、ビンを埋めるためにさらに100倍のデータが必要になると予想されることを意味します。

— ウルフガード
ソース

ああ、理にかなっています。ビンの数を35（_ = ax.hist(sums, bins=35, edgecolor='black', linewidth=1.2, density=True)）に設定することにより、3番目の実験は通常の曲線に近似します。

— クリススノー

5

個々のコインフリップは、独立したベルヌーイ裁判と考えることができます。1つのトライアルでは、それぞれ成功/失敗または成功/失敗のいずれかが得られます。これを100,000回繰り返すと、コインが公平であれば、平均ヘッド数は0.5に非常に近くなります。

試行回数を1,000回に増やして繰り返し回数を1回にすると、1,000回の成功/失敗のシーケンスが得られ、繰り返し回数を増やした場合を除き、平均で500頭を観察する確率についてはあまり言えません。それらの独立した試験のそれぞれ。繰り返しの回数が増えると、正規分布へのより良い近似が得られます。

私にとっては、試行を「トス」や「サンプルサイズ」としてではなく、別々のコインやそれらのコインのフリップの回数としての繰り返しの代わりに考える方が簡単です。また、コイン（または試行）の数を増やすことで、繰り返し（または反転）の総数を一定に保ちながら、データの正規分布への近似が悪化することも直感的に理解できます。

— ステファン
ソース

2

ここでの他の答えは素晴らしいと思いますが、別の統計ツールにまで及ぶ答えを追加したいと思いました。

正常な曲線に近似する必要があると思われるベースラインから始めて、そこから進んで、正常な曲線により近似できるかどうかを確認します。他の方向に進んでみて、近似でより悪い仕事をするためにできることを見てください。10回のフリップと1000回の繰り返しがあるシミュレーションを試してください。これを1000回のフリップと10回の繰り返しがあるシミュレーションと比較してください。前者のケースの方が近似値が優れていることは明らかです。

私が作りたい拡張は、ANOVA（分散分析）です。この問題をよく理解していない多くの新しいデータサイエンティストがいます。彼らは、多くのフリップを使用しますが、繰り返しは少ないように研究を設計します。彼らは多くのデータを持っていますが、それは彼らが望むよりも少ないと言います。木の上のすべての葉を測定するようなものですが、2本の木だけがあります。これら2本の木の葉についてはかなり言えるが、一般的な木の葉ではない。葉のサンプルをもっと小さくして、木をたくさん手に入れたほうがよかったでしょう。

— ジェレミー
ソース

答えてくれてありがとう。このコンテキストでANOVAを使用する方法について詳しく説明していただけますか？

— クリス・スノー

1

@ChrisSnow ANOVAは、異なるグループが実際に分散（名前の由来）を見て異なるかどうかに焦点を当てた線形回帰の観点です。接続は、繰り返しが少なすぎると、たとえ多くのフリップがあったとしても、グループ間の違いを実際に知ることができないということです。正規曲線への近似は悪くなり、各グループの分散は、実際には何かが異なると結論付けるほど十分に異なりません。

— ジェレミー

1

いくつかの追加の直感を得るために、以下を考慮してください。

あなたがたった1回の繰り返しをしていると想像してください。

その場合、必要な回数だけトスを増やすことができますが、正規分布には似ていません。そして、これは理にかなっています。なぜならあなたのヒストグラムはただ一つのピークを持つだけだからです。

正規分布は、（二項分布の）確率分布の近似です。

あなたがしたことは、このディストリビューションを作成することではありませんでした。しかし、代わりに、限られた（そして少数の）シミュレーションを使用して、この分布を近似しました。（そして、あなたが発見したのは、ヒストグラムのビンの数を増やすと、この近似が悪化することです）

だから、あなたは両方のトスと繰り返しの数が必要です。

トスの数が多い場合、二項分布（複数のコイントス）は正規分布で近似できます。
繰り返し/シミュレーションの回数が多い場合、これらの実験のヒストグラムは二項分布の密度に近似します。

— セクストゥス・エンピリカス
ソース