ランダムに選択されたアメリカ人は、2人が同じまたは隣接する州に50%の確率で住むために何人必要ですか?


7

バックグラウンド

一般的な偶然と、それにもかかわらず(不当に)平均的な人に印象を与える「近い」偶然を研究しています。以下の質問は、「2人が同じ誕生日を共有する確率が50%になるためには、ランダムに選択された人は何人必要か?」と尋ねる有名な誕生日問題の拡張です。答えはです。(実際には、誕生日が年間を通じて均一に分散されていないという事実を組み込むと、少し低くなりますが、代わりに特定の月に「まとまり」になり、2人が同じ誕生日を共有する可能性が高くなります。)条件を緩和し、同じ誕生日である、または1日だけ異なるという「ほぼ」の偶然を許可します。答えはに下がります。2314

以下は誕生日の問題の拡張ですが、もっと面白くて複雑です。


ランダムに選択されたアメリカ人のうち、2人がa)同じ州に住んでいるまたはb)同じまたは隣接した州に住んでいる可能性が50%になるには、どれくらいの数のアメリカ人が必要ですか?

50の州とその人口のリストが与えられていると仮定します。

S={(AL,4.803M),(AK,0.738M),(AR,2.978M),}

状態隣接情報(自己隣接を含む)を含む隣接行列(または無向グラフ)と同様に、境界を共有します。Mg

{(CA,CA),(CA,WA),(CA,NV),(CA,AZ),(AK,AK),(ME,NH),}

条件付き確率を使用して、確率的シミュレーションに頼らずにこの問題を計算することに注意してください。このような厳密なアプローチは原則に基づいており、非常に大きな問題に対してより自然に一般化されます。

a)へのアプローチは誕生日問題の一般化ですが、b)への回答は少し複雑に見えます。

私は方程式(と説明)だけを求めています。その後、国勢調査と地理データを使用して数値を計算できます。

ここで、確率的検索を通じて、b)への答えは(おそらく驚くべき)わずか3.5人であることに注意します。4人の場合、可能性はほぼ60%であり、少なくとも2人は同じ州または近隣の州からです。


2
はい、3.5は非常に驚くべき結果であり、整数であると思っていました。
マークL.ストーン

答えは前後になると思います。誕生日の問題は、のオーダーであることを教えてくれます。ただし、小規模な州はそれほど大きな役割を果たすことはなく、有効な州の数は約ます。さらに、隣接する状態のブロックのみを考慮する必要があります。これは、(「隣接する」という意味によって異なりますが)およそ状態のグループになる可能性があります。これにより、平方根がである約「有効な」状態がます。3507255103
whuber

@whuber:「隣接」は厳密に定義されています:境界線を共有します。
デビッドG.ストーク2017

3
個人的には、whuberのエンベロープ計算の裏側よりも正確な答えが必要な場合は、単純にシミュレートします。人口と隣接関係の情報がすでに手元にある場合は、ペンと紙を見つけて方程式を書き始める前に、たくさんのシミュレーションを行うことができます。(正確な同時計算はかなり簡単ですが、その場合でもおそらくとにかくシミュレーションするだけです)
Glen_b -Reinstate Monica

1
@David厳密に聞こえるかもしれませんが、あいまいです。境界が海の真ん中にある架空の境界である場合はどうなりますか?たとえば、ハワイとアラスカは「境界線を共有」します。フォーコーナー領域のように、「共有枠」が単一の点である場合 元の投稿で明確にしたように、これらの詳細は現在の議論には関係ありませんが、特定の計算には関係します。
whuber

回答:


3

私は質問b)に回答します。これはより一般的であるためです。質問a)は、隣接行列が単に単位行列であるb)の特別な場合と考えることができます。正確な解の計算は人の数に応じて急速に拡大するため、近似解法が必要になる場合もありますが、正確な方法を説明します。より適切に拡張できるソリューションはないと思いますが、誰かが私を修正できるかもしれません。

それは、少数の人々に対して明示的なケースを実行し、さらに追加して、パターンを探すことによってそれを調べるのに役立ちます。

任意の2人の隣接する状態の確率から始めましょう。最初の人は状態である確率、及び第二の人は状態にあるある 状態の人々の数でありおよび場合、これらは隣接しますここで、は隣接行列の番目の要素です。したがって、それらが隣接する確率は、 ij

P(i,j)=pipj,
pl=Sl/N,Sll,N=lSl.Mij=1,Miji,j
P2=i=1kj=1kP(i,j)Mij=2i=1k1j=i+1kpipjMij+i=1kpi2,
ここで、を、人のグループに少なくとも1つの隣接ペアがある確率と定義していますは状態の数です。また、すべての対角要素は1 であると想定しています。ただし、誕生日の問題と同様に、それらが隣接していない確率を見つけると、 PmmkM
Q2=1P2=2i=1k1j=i+1kpipj(1Mij).

人で見てみましょう。それはそれを見るのは簡単だ、 ただし、この計算が多数の人々にとって扱いにくいものになる理由も簡単にわかります。上記の点で因数分解することができないためとで表示されなければならない誘導プロセスがどのと我々は判断ので、合計の観点アウトと思われます質問の。値については明示的に解決する必要があります。ただし、人の場合と同様に、上部の「直角三角形」を一般的に使用できます。3

Q3=i,j,lpipjpl(1Mij)(1Mil)(1Mjl).
Q2MilMjli,jQm+1Qm2m相互に排他的な状態の人々の可能なセットの3次元配列。適切な係数により、起こり得る方法がいくつあるかがわかります。たとえば、、、がすべて異なる3人の場合、3人、、および方法は、3つのサンプルを通じて出現できます。ijl3!=6ijl

以下のための人々 、 2行目では、項の合計から項の合計に削減され、スケーリングが非常に不十分です。また、各項には、係数を超える積が含まれます。したがって、全体として、これは計算です。隣接関係を無視して質問(a)に答えると、m

Qm=i1=1ki2=1kim=1k(pimj=1m1pijl=j+1m(1Mij,il))=m!i1=1km+1i2=i1+1km+2im=im1+1k(pimj=1m1pijl=j+1m(1Mij,il)).
km(km)m(m+1)/2O((km)m2)O((km)m).しかし、多分あなたは幸運になるでしょう、そして確率が最初に50%を超えるの値は非常に小さいでしょう。m

これは正しいようです(ただし、結論には少しがっかりします)。審査または承認する前に、他の潜在的な回答をしばらく見てみましょう。ありがとう。
David G. Stork 2017

0

マルコフ行列を使用してこれを解決し、人を選択するランダムなプロセスをモデル化することができます。このアプローチはセットアップにかなりの労力を必要としますが、答えを得るには構造化された方法があります。

マルコフ行列は、離散した「状態」間を移動できるランダムなプロセスをモデル化するために使用されます(米国の状態とマルコフの状態の間の混乱を避けるために、マルコフの状態を「フェーズ」と呼びます)。

このコンテキストでは、マルコフフェーズは、アメリカ人を選択したすべての州のリストです。たとえば、最初のアメリカ人がワシントン出身の場合、フェーズは{WA}であり、次のアメリカ人がテキサス州出身の場合、フェーズは{TX、WA}です。人を選択した順序は関係ないため、{TX、WA}は{WA、TX}と同じフェーズです。

サンプリングを開始する前に、アメリカ人が選択されていないフェーズ{0}から開始します。隣接する州から2人のアメリカ人を選択した単一フェーズ{E}(「終了」を意味する)を定義します。アメリカ人を選択するランダムなプロセスは、{E}に達するまで続きます。フェーズ{TX、WA}から続けて、次のアメリカ人がオレゴン出身である場合、オレゴンはワシントン州のそばにあるため、フェーズは{E}に移行します。

ランダムプロセスが{E}に達すると、別のフェーズに変更できないため、{E}は「吸収状態」として知られています。

{E}に到達する前に発生する可能性のあるすべてのフェーズのリストを作成する必要があります。

次に、状態間の遷移の確率のマルコフ行列を計算する必要があります。まず最初に、をある州からアメリカ人をサンプリングする確率のベクトルとします。次に、はフロリダから誰かを選ぶチャンスです。MPPflorida

マルコフ行列のエントリは、フェーズからフェーズへの遷移の確率です。たとえば、{WA}から{TX、WA}への移行はです。{WA}から{E}に移行する確率は、です。そして、{E}から{E}に遷移する確率は1です。MijijPTexasPWashington+PIdaho+POregon

常に{0}からサンプリングを開始します。1人のアメリカ人がサンプリングされた後、{E}にいる確率はです。2人のアメリカ人がサンプリングされた後、{E}にいる確率は(行列Mはそれ自体で乗算され、行{0から確率が得られます。 }および列{E})。M{0}{E}(MM){0}{E}

同様に、3人のアメリカ人がサンプリングされた後、{E}にいる確率はです。確率が少なくとも50%になるまでMを掛け続ける必要があります(MMM){0}{E}

を見つけるのは大変な労力が必要ですが、それがわかったら、結果を取得するのは簡単です。M


このアプローチは恐ろしく困難に見え、ひどくスケーリングします。終了があることを保証するために、20程度の「フェーズ」(米国の州)のシーケンスを含める必要があるかもしれません。そのうちの47兆のシーケンスがあります。完全に非現実的です。さらに、各ステップで終了に達したかどうかを明示的にテストする必要があります。確率と条件付き確率のみを処理する、「隣接する」誕生日問題の分析解に近い方法はありませんか?
David G. Stork 2017

フェーズ{TX、WA}の場合、吸収されている{TX、NM}に移行する確率と、吸収されていない{WA、NM}に移行する確率はどのくらいですか。状態(フェーズ)スペースの定義では、これらすべてを明確にする必要があります。編集:おそらく@David G. Storkは同様のポイントを作っています。
マークL.ストーン

@ヒュー:「{WA}から{E}に移行する確率が理由」たとえば、すでに {WA}にいる場合、その確率がまったく重要なのはなぜですか。そして、なぜ製品ではなく合計なのか?PWashington+PIdaho+POregonPWashington
David G. Stork

@ DavidG.Stork 2番目の質問は、それらがワシントン州に隣接する州であり、抽選が独立しているためと考えられます。したがって、これらの州のいずれかを選択すれば、完了です。しかし、はい、ここでのマルコフフェーズの数は、途方もなく大きくなるでしょう。
Dougal

@ DavidG.Stork As Dougalが言うように、最初の州(ワシントン)に隣接する州から2番目の人物を選択すると、サンプリングが終了し、ワシントンに隣接する各州の確率を合計します。
ヒュー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.