統計とビッグデータ combinatorics

3

伝統的な誕生日のパラドックスでは、質問は「nnn人のグループの2人以上が誕生日を共有する可能性はどれくらいか」です。私はこれの延長である問題で立ち往生しています。 2人が誕生日を共有する確率を知るのではなく、xxx人以上の人が誕生日を共有する確率を知るために質問を拡張する必要があります。ではx=2x=2x=2、あなたには二人が誕生日を共有していないとのことを引く確率を計算することにより、これを行うことができます111が、私はより多くの数にこのロジックを拡張することができるとは思わないxxx。これをさらに複雑にするために、nnn（数百万）およびxxx（数千）の非常に大きな数に対して機能するソリューションも必要です。

29 probability combinatorics birthday-paradox

5

この「単純な」シャッフルアルゴリズムの何が問題になっていますか？

これは、配列をランダムにシャッフルすることに関する Stackoverflowの質問のフォローアップです。「単純な」アドホックな実装に依存するのではなく、配列をシャッフルするために使用する確立されたアルゴリズム（Knuth-Fisher-Yates Shuffleなど）があります。私は今、私の素朴なアルゴリズムが壊れていることを証明（または反証）することに興味があります（すべての可能な順列を等しい確率で生成するわけではありません）。アルゴリズムは次のとおりです。ループを数回繰り返し（配列の長さで行う必要があります）、繰り返しごとに2つのランダム配列インデックスを取得し、2つの要素を交換します。明らかに、これにはKFY（2倍）よりも多くの乱数が必要ですが、それ以外は適切に動作しますか？そして、適切な反復回数は何ですか（「配列の長さ」で十分ですか）。

23 combinatorics randomness

5

スクラブルの文字の袋から特定の単語を描画する確率

タイルがあり、それぞれに文字が書かれたバッグがあるとします。あり文字'A'、とタイル 'B'で、というように、と 'ワイルドカード'タイルは、（私たちが持っている）。単語数が有限の辞書があるとします。nnnnAnAn_AnBnBn_Bn∗n∗n_*n=nA+nB+…+nZ+n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_* 交換せずにバッグからタイルを選びます。kkk 選択したタイルを指定した辞書から、長さ（1 < = <）の特定の単語を形成できる確率をどのように計算（または推定）しますか？llllllkkkkkk Scrabble（TM）に慣れていない人には、ワイルドカード文字を使用して任意の文字と一致させることができます。したがって、単語「BOOT」は、タイル「B」、「*」、「O」、「T」で「スペル」できます。文字が描画される順序は重要ではありません。提案：答えを書くのを簡単にするために、質問に答える方が良いかもしれません：新しいバッグから7文字を引いた後、可能な動きの中で「ブート」という単語を持っている確率はどれくらいですか？（問題の概要は、この同様の質問からコピーされています）

18 probability games combinatorics

2

同じn、kのすべての可能な値を持つ組み合わせの合計を単純化する

この方程式を単純化する方法はありますか？ (81)+(82)+(83)+(84)+(85)+(86)+(87)+(88)(81)+(82)+(83)+(84)+(85)+(86)+(87)+(88)\dbinom{8}{1} + \dbinom{8}{2} + \dbinom{8}{3} + \dbinom{8}{4} + \dbinom{8}{5} + \dbinom{8}{6} + \dbinom{8}{7} + \dbinom{8}{8} またはより一般的には、 ∑k=1n(nk)∑k=1n(nk)\sum_{k=1}^{n}\dbinom{n}{k}

17 combinatorics

1

離散均一分布から置換せずに描画されたサンプル間の最大ギャップ

この問題は、ロボットカバレッジに関する私の研究室の研究に関連しています。セットから数字を置換せずにランダムに描画し、数字を昇順で並べ替えます。。nnn{1,2,…,m}{1,2,…,m}\{1,2,\ldots,m\}1≤n≤m1≤n≤m1\le n\le m この並べ替えられた数字のリスト、連続する数字と境界の差を生成します。これにより、ギャップが与えられます。{a(1),a(2),…,a(n)}{a(1),a(2),…,a(n)}\{a_{(1)},a_{(2)},…,a_{(n)}\}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}n+1n+1n+1 最大ギャップの分布は何ですか？ P(max(g)=k)=P(k;m,n)=?P(max(g)=k)=P(k;m,n)=?P(\max(g) = k) = P(k;m,n) = ? これは、使用することができるフレーム順序統計量を： P(g(n+1)=k)=P(k;m,n)=?P(g(n+1)=k)=P(k;m,n)=?P(g_{(n+1)} = k) = P(k;m,n) = ? ギャップの分布についてはリンクを参照してくださいが、この質問は最大ギャップの分布を求めています。平均値\ mathbb {E} [g _ {（n + 1）}]に満足しE[g(n+1)]E[g(n+1)]\mathbb{E}[g_{(n+1)}]ます。 n = mの場合n=mn=mn=m、すべてのギャップはサイズ1ですn+1=mn+1=mn+1 = m場合、サイズ2のギャップが1つ222あり、n+1n+1n+1可能な場所があります。最大のギャップサイズはm−n+1m−n+1m-n+1であり、このギャップはnnn 数字の前または後に配置でき、合計でn+1n+1n+1可能な位置になります。最小の最大ギャップサイズは⌈m−nn+1⌉⌈m−nn+1⌉\lceil\frac{m-n}{n+1}\rceilです。任意の組み合わせT = {m \ choose n} ^ {-1}の確率を定義しますT=(mn)−1T=(mn)−1T= {m \choose n}^{-1}。 P（g …

16 probability mathematical-statistics uniform combinatorics order-statistics

8

aabcccddefから2文字の単語をいくつ取得できますか

（aaは多数ありますが、bbはそうではありません） 10！/ 8だと思いました！しかし、どうやら私は何か間違ったことをしているようです。私は困惑しているので、誰も私を助けることができます。

14 self-study combinatorics

7

ポアソン分布が二項分布の限定的なケースである理由を直感的に理解する

DS Siviaによる「データ分析」では、二項分布からポアソン分布の導出があります。彼らは、ポアソン分布はときの二項分布の限定的なケースであると主張しています。M→∞M→∞M\rightarrow\inftyここで、MMMは試行回数です。質問1：その議論はどのように直感的に理解できますか？質問2：なぜ大であるMMMの上限M NにM!N!(M−N)!M!N!(M−N)!\frac{M!}{N!(M-N)!}等しいMNN!MNN!\frac{M^{N}}{N!}、NNNはMMM回の試行の成功数ですか？（このステップは派生で使用されます。）

14 binomial poisson-distribution combinatorics intuition probability-calculus

4

審査員選考のバイアス？

友人は、ju審員の選択が人種的に偏っているように見える刑事裁判の後、控訴でクライアントを代表しています。 ju審員プールは、4人種グループの30人で構成されていました。検察は、これらの人々のうち10人をプールから排除するために、強引な挑戦を使用しました。各人種グループの人数と実際の課題の数は、それぞれ次のとおりです。 A: 10, 1 B: 10, 4 C: 6, 4 D: 4, 1 total: 30 in pool, 10 challenges 被告は人種グループCからであり、被害者は人種グループAおよびDからでした。したがって、先験的な懸念は、グループCが過負荷で、グループAおよびDが過負荷であるかどうかです。法的には（IIUC; IANAL）、弁護側は人種的偏見を証明する必要はなく、単にデータが偏見を示しているように見えることを示すだけで、検察に各人種的問題を非人種的に説明する負担をかけるだけです。次の分析はそのアプローチにおいて正しいですか？（計算は問題ないと思います。）： nCr（30,10）= 30,045,015個の10個のプールメンバーの個別のセットがあります。これらの明確なセットのうち、433,377セットには（グループAとDの2つ以下のメンバーを合わせた）と（グループCの4つ以上のメンバー）の両方が含まれるとカウントします。したがって、グループCよりもグループAとDを優先する見かけのバイアスの観測レベルに達する可能性（10のチャレンジのセットに含まれない優先手段）は、これらの比率、433/30045 = 1.44％になります。したがって、帰無仮説（そのようなバイアスはありません）は5％の有意水準で拒否されます。この分析が方法論的に正しい場合、学術的/専門的な参考文献（ウィキペディアではない）を含めて、裁判所に説明する最も簡潔な方法は何でしょうか？議論は単純に思えますが、どうしてそれが正しいのであって、シェナンガンではないことを法廷に最も明確かつ簡潔に証明できるでしょうか？更新：この質問は、控訴ブリーフの第三の議論として検討中だった。ここでの議論の技術的な複雑さ（弁護士の観点から）と法的な先例の明らかな欠如を考えると、弁護士はそれを提起しないことを選択したので、この時点で問題はほとんど理論的/教育的です。 1つの詳細に答えるには、課題の数である10は事前に設定されていると思います。思慮深く、やりがいのある答えとコメント（ありがとう、すべて！）を研究した後、ここには4つの別個の問題があるようです。少なくとも、私にとっては、それらを個別に検討すること（または分離できない理由についての議論を聞くこと）が最も役立ちます。 1）ジュリープールの課題における、被告人と被害者の両方の人種の考慮は、法的な懸念であるか？上訴の議論の目的は、合理的な懸念を提起することだけであり、これにより、検察が個々の異議申し立ての理由を述べるという司法命令につながる可能性がある。これは私には統計的な問題ではなく、社会的/法的問題であるように思われます。これは弁護士の裁量によるものです。 2）（1）を仮定して、対立仮説（定性的には、被告の人種を共有するju審員に対するバイアス、犠牲者の人種を共有する人を支持する）の選択はもっともらしいか、それは容認できない事後ですか？私の平凡な観点から、これは最も困惑する質問です-はい、もちろん、それを観察しなければ、それを提起しません！私が理解しているように、問題は選択バイアスです：テストでは、このju審員プールだけでなく、そのようなすべてのall審員プールの宇宙を考慮する必要があります。これには、防衛が矛盾を観察せず、したがって問題を提起しようとしないすべてのもの。これにどのように対処しますか？（たとえば、Andyのテストはどのようにこれに対処しますか？）これについては間違っているかもしれませんが、ほとんどの回答者は潜在的に事後的に悩まされていないようです被告のグループのみに対するバイアスの片側検定。（1）を仮定して、被害者グループのバイアスを同時にテストすることは、方法論的にどのように異なりますか？ 3）（2）で述べた定性的対立仮説の選択を規定する場合、それをテストするための適切な統計量は何ですか？私が提案する比率は、より単純な「Cに対するバイアス」代替仮説に対するAndyの検定の控えめな類似であるように見えるため、ここで私は応答に最も困惑しています（私の検定もすべてのケースをさらにカウントするため、より保守的です）正確に観察されたカウントだけでなく、テールでも）両方のテストは、同じ分母（サンプルの同じ宇宙）を持ち、分子がそれぞれの対立仮説に対応するサンプルの頻度に正確に対応する単純なカウントテストです。だから@whuber、なぜアンディのように「規定のヌル[同じ]および代替[記述]仮説に基づいて、Neyman-Pearsonの補題を使用して正当化できる」という私のカウントテストと同じではないのですか？ 4）（2）と（3）を規定する場合、懐疑的な控訴裁判所を納得させる判例法の参照はありますか？証拠から現在まで、おそらくそうではありません。また、このアピールの段階では、「専門家証人」の機会はないので、参照がすべてです。

14 probability statistical-significance references bias combinatorics

3

順列を繰り返さずにRでリサンプリングする方法は？

Rでは、set.seed（）を実行してから、サンプル関数を使用してリストをランダム化した場合、同じ順列を生成しないことを保証できますか？つまり... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } これにより [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 1 [1] 0 1 3 2 …

12 r sampling combinatorics resampling

2

シークレットサンタの配置が完璧な組み合わせになる確率

だから、私たちは秘密のサンタを仕事にしていた。私たちは8人です。私たちはそれぞれ順番に、名前の書かれたボウルから小さな紙を引き出しました。唯一のルール：名前を引く場合は、紙をボウルに戻し、もう一度試す必要があります。人々をA、B、C、D、E、F、G、Hと呼びましょう。これは、紙を選んだ順序でもあります。昨夜はギフト交換をしました。 AはFの秘密のサンタでした。 BはEの秘密のサンタでした。 CはDの秘密のサンタでした。 DはCの秘密のサンタでした。 EはBの秘密のサンタでした。 FはAの秘密のサンタでした。 GはHの秘密のサンタでした。 HはGの秘密のサンタでした。何が起こったのかわかりますか？カップル作りました。 AとFはお互いの秘密のサンタでした。 BとEはお互いの秘密のサンタでした。 CとDはお互いの秘密のサンタでした。 GとHはお互いの秘密のサンタでした。これが発生する可能性はどのくらいですか？

11 combinatorics odds

2

「最強のパスワード」

4桁のPINで保護されているアプリを使用していて、アカウントがロックされる前に、ユーザーがログインを5回試行しました。現在、私の顧客の1人がセキュリティを「強化」し、別のソリューションを提唱したいと考えています。 6桁のPIN いいえ「隣同士に同じ数字」：例：11 3945または39 55 94 「3つの連続する数字」：例：123 654または53 789 3 さて、質問：最も強力なソリューションはどれですか？ 4桁はかなり簡単に計算できますが、もう1桁はどのように計算しますか？ありがとう！更新あなたはあなたが求めるものを手に入れます-特に数学を扱うとき:) だから、私が求めていたのは、両方の数列の組み合わせの数でした。回答やコメントを読むと、それは本当に問題ではないことが明らかになりました。推測が5つある場合は、1万個と800.000個から選択できます。さらに重要なのは、1234年と誕生日を除外することです。私の状況では、実際にユーザーの誕生日があるので、チェックするものがあります。素晴らしい議論をありがとう！

11 combinatorics

2

置き換えのない独立したランダムサンプルの交差のカーディナリティの分布はどのようになっていますか？

N ∈ N 1、2、。。。、a m nSSSは要素のセットであり、は以下の固定された正の整数です。n∈Nn∈Nn\in\mathbb{N}a1,a2,...,ama1,a2,...,ama_1,a_2,...,a_mnnn の要素が等しい可能性がある場合、サンプルは置換せずにから個別に独立して描画され、そのサイズはそれぞれです。m個のL 1、L 2、。。。、LのMが S 1、2、。。。、MSSSmmmL1,L2,...,LmL1,L2,...,LmL_1, L_2,...,L_mSSSa1,a2,...,ama1,a2,...,ama_1,a_2,...,a_m サンプルの交差のカーディナリティ一般に、と同等のサポートがありますが、どの分布に従うのですか？|L1∩L2∩ ... ∩Lm||L1∩L2∩ ... ∩Lm|\left|L_1\cap L_2\cap\ ...\ \cap L_m\right|{0,1,...,min{a1,a2,...,am}}{0,1,...,min{a1,a2,...,am}}\{0,1,...,\min\{a_1,a_2,...,a_m\}\}

10 combinatorics

3

多剤使用の研究をしています。私は400人の麻薬常用者のデータセットを持っています。10種類以上の薬物が存在するため、可能な組み合わせは大きくなります。私はそれらが消費する薬物の大部分をバイナリ変数に再コード化しました（つまり、薬物中毒者がヘロインを乱用した場合、ヘロインは1で、それ以外は0です）。2つまたは3つの薬物の人気のある、または一般的な組み合わせを見つけたいのですが。使用できる統計的方法はありますか？

10 hypothesis-testing clustering combinatorics association-measure association-rules

4

塩基対の特定のシーケンスを見つける確率

確率について考えると、いつも自分が数えるのがどれほど悪いのかがわかります... 基本文字Aのシーケンスを考えます。んnn、それぞれが等しく可能性が登場します。このシーケンスは、長さの関心のベースペアの特定のシーケンスが含まれている確率は何である R ≤ nが？A 、T、C、および GA,T,C, and GA,\; T, \; C, \text{ and } GR ≤ Nr≤nr\leq n ある異なるが（等しく可能性）の可能な配列。完全なシーケンスの先頭にある目的のシーケンスから始めます。このような4つのn − rシーケンスが可能です。n + 1 − rの異なる場所で目的のシーケンスを開始できます。したがって、私の答えは（n + 1 − r ）/ 4 rです。4ん4n4^n4n − r4n−r4^{n-r}n + 1 − rn+1−rn+1 -r（n + 1 − r ）/ 4r(n+1−r)/4r(n+1-r)/4^r この確率はで増加しており、私には理にかなっています。しかし、n > 4 …

10 probability combinatorics

3

m人のリストからn人がy人のリストからx人をランダムに選択する確率はどれくらいですか？

私が363人のプールから232人を置換なしで選択している場合、その選択に12人の特定の人のリストの2人がいる確率はどのくらいですか？これは、232スポットに363人のエントリーがあったウルトラレースのランダムな抽選です。選択が12人の特定のグループに対して偏っていたかどうかについては、議論があります。これを計算する私の最初の試みは、232が363の可能な選択を選択することでした。12のリストから任意の1人の組み合わせの数は、1を選択12 + 2を選択12 + ... + 11を選択12 + 12を選択12です。したがって、1を選択12 + 2を選択12 .... / 232を選択363 。これは非常に低い数値になり、明らかに低すぎます。これをどのように計算しますか？

10 combinatorics randomness hypergeometric

タグ付けされた質問 「combinatorics」

タグ付けされた質問「combinatorics」