m人のリストからn人がy人のリストからx人をランダムに選択する確率はどれくらいですか?


10

私が363人のプールから232人を置換なしで選択している場合、その選択に12人の特定の人のリストの2人がいる確率はどのくらいですか?

これは、232スポットに363人のエントリーがあったウルトラレースのランダムな抽選です。選択が12人の特定のグループに対して偏っていたかどうかについては、議論があります。

これを計算する私の最初の試みは、232が363の可能な選択を選択することでした。12のリストから任意の1人の組み合わせの数は、1を選択12 + 2を選択12 + ... + 11を選択12 + 12を選択12です。したがって、1を選択12 + 2を選択12 .... / 232を選択363 。これは非常に低い数値になり、明らかに低すぎます。

これをどのように計算しますか?


1
2つの技術的なポイント。最初に、結果がわかっているため、確率ではなく可能性を扱っています。第二に、結果が得られれば、理論的な可能性が何であるかは問題ではありません。選択に使用する方法にアプローチする方が良いと思います。選択はどのように選択されたのですか?結果の正確さではなく、メソッドの正確さを証明する必要があります。
ミシェル

1
ミシェルは、選択確率を推定するために、これを可能性と見なします。ここではそうではないようです。
whuber

不平を言っている12人はランダムに選択されていないため、超幾何RVの単純な計算を使用する場合は注意が必要です。彼らは選ばれなかったので彼らは不平を言っている。
ガイ

回答:


10

私はこの質問を次のように解釈します。サンプリングは、まるで1人の名前のラベルが付けられた枚のホワイトペーパーチケットが瓶に入れられ、瓶の内容物を完全にかき混ぜた後、ランダムに取り出されたとされています。事前に、チケットの枚が赤く着色されていました。チャンスは何である正確に選択されたチケットの二つが赤では?チャンスは何である最大2つのチケットのが赤では?36323212

正確な式を取得できますが、それほど理論的な作業を行う必要はありません。代わりに、チケットがjarからプルされるときのチャンスを追跡します。それらのが取り下げられた時点、正確に赤いチケットが見られた可能性をます。開始するには、(開始する前に赤いチケットを取得することはできません)および(赤いチケットを取得していないことが確実場合ことに注意してください。最初に)。さて、最新の抽選では、チケットは赤か赤かでした。最初のケースでは、以前にが正確にを見る機会がありました。mip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1赤いチケット。私たちは、その後、残りの赤1引っ張って、その後起こったそれは正確になって、チケットを、これまでの赤のチケット。すべてのチケットがすべてのステージで等しい確率を持つと想定しているため、この方法で赤を描く可能性はでした。もう1つのケースでは、前のドローで正確に赤チケットを取得する機会あり、次のドローでサンプルに別の赤チケットを追加しない可能性は363m+1i(12i+1)/(363m+1)p(i,m1)im1(363m+112+i)/(363m+1)。そこから、確率の基本公理を使用します(つまり、相互に排他的な2つのケースの確率が加算され、条件付きの確率が乗算されます)。

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

この計算を再帰的に繰り返し、およびのの値の三角配列をレイアウトします。少し計算すると、および、両方のバージョンの質問に答えます。これらは少数です。どのように見ても、それらはかなりまれなイベントです(1,000に1未満)。0 I 12 0 M 232 P 2 232 0.000849884 のP 0 232 + P 1 232 + P 2 232 0.000934314p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

再確認として、このエクササイズをコンピューターで1,000,000回実行しました。これらの実験の932 = 0.000932では、2つ以下の赤いチケットが観察されました。期待値934.3のサンプリング変動は約30(上または下)であるため、これは計算結果に非常に近いです。Rでシミュレーションを行う方法は次のとおりです。

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

今回は、実験がランダムであるため、結果は少し異なりました。100万回の試行のうち、948件で2つ以下の赤いチケットが観察されました。それはまだ理論的な結果と一致しています。)

結論として、232チケットのうち2つ以下が赤になる可能性はほとんどありません。 実際に363人の232人のサンプルがある場合、この結果は、jar内チケットモデルがサンプルの取得方法の正しい説明ではないことを強く示しています。 代替説明には、(a)jarから赤いチケットを取得するのがより困難になった(それらに対する「バイアス」)、および(b)サンプルが観察された後にチケットが色付けされた(事後データスヌーピング、ではない)任意のバイアスを示しています。

実例の説明(b)の例は、悪名高い殺人裁判の陪審員プールです。363人が含まれているとします。そのプールから、裁判所はそれらの232をインタビューしました。野心的な新聞記者は、プールの全員の履歴書を綿密にレビューし、363人のうち12人が金魚の愛好家であることに気付きましたが、インタビューを受けたのは2人だけでした。裁判所は金魚愛好家に偏っていますか?おそらく違います。


注意:シミュレーションでは、すべてのサンプリングは置換なしで(を介してsample)ランダムに実行されるため、最初の12個の「チケット」がマークされているかどうかは重要ではありません。実際には、各イテレーションでsampleチケットが呼び出されるたびに、チケットが232個取り消される前にチケットが完全に混合されます。
whuber

2
善-それは実際に私が期待した結果ではなかった。丁寧な説明と良い説明をありがとうございました。(不思議なことに、私は実際にRが最初に開発されたオークランド大学でいくつかの統計トレーニングを行いました)
Sarge

10

@whuberは徹底的な説明を行いましたが、このシナリオに対応する標準的な統計的分布、つまり超幾何分布があることを指摘したいと思います。したがって、そのような確率は、たとえばRで直接取得できます。

選択した12のうち正確に2の確率:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

選択した12のうち、2以下の確率:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1ありがとうございます。私はこの関係について述べるべきだった。超幾何分布は、古典的にサンプリング-リサンプリング実験に現れます。12人の特定の人々(私の「赤いチケット」)は、釣られ、マークされ、プールに戻された魚のようなものです。232のサンプルは、後に捕獲される魚のセットのようなものです。超幾何分布は、捕獲された魚の頻度を表します。
whuber

0

グループがランダムに選択されていないため、オッズは単純な超幾何分布で計算されたものよりもはるかに高くなっています(「ドローの前に12匹の魚が赤く塗られている」)。

質問の説明から、抽選で詐欺をテストしています。12人の特定のグループは、そのうちの2つだけが選択されたと不満を述べましたが、予想される数は232/363〜2/3 = 8でした。

私たちは本当に計算に必要なの「というオッズが何であるかですんがサイズ12のグループが唯一の2メンバーを選択しているんだろうが」。少なくとも1つのグループの確率が2以下になる(したがって、抽選の公平性に不満がある)オッズははるかに高くなります。

このシミュレーションを実行して、30(= 360/12)グループの2つ以下の選択がなかった試行の数を確認すると、約2.3%の時間が得られます。1:42は低いですが、不可能ではありません。

抽選の手順は、特定のグループの人々に偏っている可能性があるため、引き続き確認する必要があります。彼らは一緒になって、より少ない確率でドローの範囲を受け取った可能性があります(最初または最後の数字など)、またはドローの手順に依存する変数。ただし、手順に問題がない場合は、1:42の確率に戻ることができます。これは、グループにとって単に不運であるということです。


良い点ですが、(a)考えられるすべての12のグループが十分に類似しているわけではなく、(b)十分に類似しているすべてのグループがちょうど12のメンバーを持っているわけではありません。
zbicyclist

@zbicyclist、計算が正確だとは主張していません。引き分けは無罪ではないという合理的な疑問を抱きたいと思いました(私たちは詐欺の検出に関する法律の領域にいるため)。
ガイ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.