同じ名前の同じクラスの5人の子供の確率

赤ちゃん命名フォーラムでは、将来の両親は常に自分のフィアオブジェニファーのバージョンを繰り返します。物事は、もはやそのような人気に近づく名前はなく、ジェニファーの大流行の高さでさえ、あなたはクラスでそれらのうちの5つを取得しませんでした。名前の繰り返しのこのような偶然がどれほどあり得ないかについて、これらの両親のためのある種の答えを望みます。

社会保障局の豊富な赤ちゃんの名前のデータ（https://www.ssa.gov/oact/babynames/limits.html）を使用して、米国の小学校のクラスが5つある可能性を理解する方法を誰かに教えてもらえますか同じ名前の子供？（簡単にするために、「同じ名前」とは、同じスペルを意味し、「学校のクラス」とは、すべての子供が同じ年に生まれたことを意味します。）私はクラスサイズを指定していませんが、4より大きくする必要があります。:-)

probability combinatorics

— JPmiaou
ソース

赤ちゃんの名前に関する投稿は、Andrew Gelmanのブログで繰り返し取り上げられるテーマです。彼のサイトで見つけたどの投稿でも、彼はあなたの特定の質問について議論していません。彼は「赤ちゃんの名前のブログ」へのリンクを張っています。 andrewgelman.com/2005/09/07/baby_name_blog

— マイクハンター

たとえば、このような国勢調査データから抽出された最初の上位20個の名前など、成功の確率が高い多項分布を使用して何かをつなげてもよいと思います。

— Antoni Parellada

SSA は、名前を付けて生まれた子供の数に関するデータを提供しますか？ランクに関する情報を見つけているだけで、いくつかの有用な情報が明らかに破棄されています。

— Sycoraxによると、モニカは2016

@AntoniParellada状況の現実はさらに微妙だと思います。米国の学校システムは収入と人種によって高度に分離されているため、国の統計は実際の教室との対応が悪いと思います。

— Sycoraxによると、モニカは2016

私が（小さい）小学校の学生だったとき、私たちは非常に小さなクラスに3人のジョンを抱えていました（男の子と女の子を合わせたのは約14人だけだったと思います）。1年で上記の年と組み合わせて1つのフルサイズのクラスを作成しました...そして4人目のジョンを獲得しました。今ジョンはその後、すべてではありませんが、かなり一般的だったという共通。（元の問題に関しては、3つは5つと同じくらい煩わしいでしょう）。特定の名前が何度も複製される可能性は非常に低くなりますが、一部の名前が複数回出現する可能性ははるかに高くなります。

— Glen_b-2016

回答:

すべてのデータはここにあります。表の各値は、その場所と誕生年から25人のサンプルが与えられた場合、そのうちの5人が名前を共有する確率を表しています。

方法：それぞれの名前にBinomial PDFを使用して、特定の25人のクラスが5人で名前を共有する可能性を見つけました。

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

$P(\bigcup A_i) \approx \sum P(A_i)$

更新：多くの人が指摘したように、時間の経過や州によってかなりのばらつきがあります。したがって、私は同じプログラムをSTATE BY STATEベースで、そして時間をかけて実行しました。結果は次のとおりです（全国規模の確率は赤、個々の州は黒です）。

興味深いことに、バーモント（私の故郷）は、過去数十年の間、一貫してこれが発生する可能性が最も高い場所の1つでした。

— デビッドC
ソース

これらの数値をどのように取得したか説明できますか？あなたはそれをあまり馬鹿にする必要はありません-私は数学の学士号を取得しており、どこを調べればよいか知っています-しかし、実際に確率につながる種類の推論を知りたいです（代わりにため息をつきます。

— JPmiaou

これは名前が与えられていることを前提としてランダムにして同じ確率単に何であるか、真実ではありません。また、実際の経験では、同じ名前の子供が200人に1人のクラスがはるかに多いことが示されています。

— Tim

結果は少し異なりますが、近いです。ただし、結果の地理的および時間的変動が非常に大きいため、これは議論する価値はありません。答えは1910年以降2桁異なり、州によって桁違いです。小学校のクラスは米国全体から引き出されることはほとんどないため、国の名前のリストからランダムに選択するモデルは不適切です。

— whuber

（1）ダウンロードした国別ファイルの他の年を見てください。（2）同じサイトで利用可能な状態ファイルを確認します。

— whuber

はい、時間の経過に伴う確率のグラフは劇的です。1980年までに急激な減少を始めました。しかし、予想されるとおり、州の変動は非常に大きく、名前は地理的に異なり、民族、収入、およびその他の人口統計学的要因によって強く集まっています。（+1は、状態と時間の変動についての詳細な調査、BTWです。）

— whuber

次のPython2用のPythonスクリプトを参照してください。

回答は、David Cの回答に触発されています。

私の最後の答えは、https：//www.ssa.gov/oact/babynames/limits.html "National Data"のデータによると、1つのクラスで少なくとも5つのジェイコブを見つける確率であり、ジェイコブが最も可能性の高い名前です。2006年から。

確率は、二項分布に従って計算され、成功の確率はJacob-Probabilityです。

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

マックス。25人のうち同じ名前の子供が5人以上いる確率：名前Jacobの4.7e-07

マックス。もちろん、50人のうち同じ名前の子供が5人以上いる確率：Jacobという名前の1.6e-05。

マックス。100のうち同じ名前の子供が5人以上いる確率：もちろん、名前Jacobの0.00045。

デビッドCと同じ10倍の結果。ありがとう。（私の答えはすべての名前を合計しているわけではないので、議論する必要があります）

— ファインマン
ソース

この回答は、教室で一部の名前が5回以上出現する可能性の問題に対処するものではないようです。

— whuber

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

いいえ、あなたはそれを策定したばかりなので、あなたは質問に答えていません。チャンスいくつかの名前が5回以上表示されるには、最大のチャンスよりもはるかに大きい与えられた名前が5回以上表示されます。

— whuber

@whuberが指摘するように、「5 Jacobs」は「5 of some name」よりも弱い議論ですが、とにかく赤ちゃんの名前の議論に役立つ場合があります。「最も人気のある名前の5人の子供がいる可能性があります。あなたは最も人気のある名前を使用しているため、確率はさらに低くなります。」

— JPmiaou 2016

そうではありません正確に可能性は、相互に排他的ではありませんので、：あなたが5以上のThomases持つことができると 5以上リチャーズ（および単一のクラスでおそらく5つの以上のヘンリーを）。つまり、上限です。@DavidCはここでコメントで、そのようなイベントの確率はごくわずかであると主張しています。

— Scortchi-モニカを回復