短い答え:
基本的に、10のうち6つよりも1000のうち600を持っている方が説得力があります。なぜなら、同じ好みが与えられた場合、10のうち6が偶然に発生する可能性がはるかに高いからです。
オレンジとリンゴを好んだ人の割合は実際には等しい(つまり、それぞれ50%)と仮定します。これを帰無仮説と呼びます。これらの等しい確率を考えると、2つの結果の尤度は次のとおりです。
- 10人のサンプルを考えると、オレンジを好む6人以上のサンプルをランダムに取得する可能性は38%です(これはそれほど可能性が高いわけではありません)。
- 1000人のサンプルでは、1000人のうち600人以上がオレンジを好む可能性は10億分の1未満です。
(簡単にするために、無制限の数のサンプルを抽出する無限の母集団を想定しています)。
簡単な派生
この結果を導き出す1つの方法は、サンプルで人々が組み合わせることができる潜在的な方法をリストすることです。
10人にとっては簡単です。
リンゴやオレンジを好む無限の人々から無作為に10人のサンプルを引き出すことを検討してください。好みが同じであれば、10人の潜在的な組み合わせをすべて簡単にリストできます。
完全なリストは次のとおりです。
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
rは結果の数(オレンジを好む人)、Cはオレンジを好む多くの人の可能な方法の数、pはサンプルでオレンジを好む多くの人の結果の離散確率です。
(pは単にCを組み合わせの総数で割ったものです。これら2つの設定を合計で1024通り(2の10乗)する方法があることに注意してください。
- たとえば、10人(r = 10)がオレンジを好む方法は1つ(1つのサンプル)しかありません。同じことは、リンゴを好むすべての人に当てはまります(r = 0)。
- 10種類の組み合わせがあり、そのうち9種類がオレンジを好んでいます。(各サンプルでリンゴを好む人がいます)。
- 2人がリンゴなどを好む45のサンプル(組み合わせ)があります。
(一般に、n人のサンプルからの結果rのn C rの組み合わせについて話します。これらの数値を検証するために使用できるオンライン計算機があります。)
このリストにより、除算のみを使用して上記の確率を得ることができます。サンプルでオレンジを好む人が6人になる確率は21%です(1024個の組み合わせのうち210個)。サンプルに6人以上が参加する可能性は38%(6人以上のすべてのサンプルの合計、または1024個の組み合わせのうち386個)です。
グラフィカルに、確率は次のようになります。
数値が大きくなると、潜在的な組み合わせの数が急速に増加します。
わずか20人のサンプルの場合、1,048,576のサンプルがあり、すべて同等の可能性があります。(注:以下では2つおきの組み合わせのみを示しています)。
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
20人すべてがオレンジを好むサンプルはまだ1つしかありません。混合された結果を特徴とする組み合わせは、サンプル内の人々を組み合わせることができる方法がもっとたくさんあるという理由だけで、はるかに可能性が高くなります。
バイアスがかかっているサンプルは、それらのサンプルをもたらす可能性のある人々の組み合わせが少ないという理由だけで、かなりありそうにありません。
各サンプルに20人しかいないため、サンプルにオレンジを好む人が60%以上(12人以上)になる累積確率は、わずか25%に低下します。
確率分布はより薄く、より高くなることがわかります。
1000人の人数は膨大です
上記の例をより大きなサンプルに拡張できます(ただし、すべての組み合わせを一覧表示するには実行できないほど急速に数が増えます)。代わりに、Rの確率を計算しました。
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
1000人のうち600人以上がオレンジを好む累積確率は、わずか1.364232e-10です。
確率分布は、中心部に集中するようになりました。
[
(たとえば、R使用dbinom(600, 1000, prob=0.5)
でオレンジを好む1000人のうち正確に600人の確率は4.633908e-11に等しく、600人以上の確率1-pbinom(599, 1000, prob=0.5)
は1.364232e-10(10億分の1未満)になります。