タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

2
小さな確率と大きなサンプルで計算する方法は?
大きなサンプルで1回発生する可能性が非常に低い確率、つまり確率がマシンエラーよりも小さい状況で、確率を計算または概算することはできますか? たとえば、誰かが私のゲノムを共有するおおよその可能性を計算しようとしていました。どうやら、個々のゲノムはロスレスで約4MB(2 ^ 25ビット)に圧縮できます。したがって、地球上の約70億人の人間が私のゲノムを共有する可能性は、およそ次のとおりです。 (1−12225)(7×109)(1−12225)(7×109)(1-\frac{1}{2^{2^{25}}})^{(7\times10^9)}。 または、誕生日問題の方法を使用して、同一のゲノムを持つ双子が少なくとも2人いる可能性(双子を無視するなど)は次のようなものです。 (7×109)!⋅(22257×109)(2225)(7×109)(7×109)!⋅(22257×109)(2225)(7×109)\frac{(7\times10^9)!\cdot{{2^{2^{25}}} \choose 7\times10^9}}{({2^{2^{25}})}^{(7\times10^9)}} ここでの問題は、数値が非常に小さいかまたは非常に大きいため、それらがどこにあるかを大まかに推測することが不可能であることです。それで、これらまたは同様の計算を概算する方法はありますか? 場合によっては、問題の背後にある仮定が何桁も外れていることもありますが、「そうである可能性が高い」に近似できることさえ興味深いでしょう。

4
「これまでで最高の統計質問」を変更すると、正しい答えは何になりますか?
「史上最高の統計質問」と呼ばれる人気のある質問があります。 この質問への回答をランダムに選択した場合、あなたが正しいと思われる可能性は何ですか? A)25%B)50%C)60%D)25% このタスクはそれほど難しくありません。正解は0%です。しかし、次のように変更すると、 この質問への回答をランダムに選択した場合、あなたが正しいと思われる可能性は何ですか? A)50%B)25%C)60%D)50% 正解は何ですか?25%と50%の2つの正解がありますか、または正解はありません。この2つの正解では、正解を選択する機会は実際には75%です(ただし、75%は机に書かれていません) )? ところで。答え0%は正解のままですか、この場合は3番目の正解ですか。

2
エントリーの内訳がわからないときに、マルチエントリーコンテストの勝率を見積もることはできますか?
私は締結していたとコンテスト以下のルールで、: すべての人が最大6つのエントリを取得できます すべてのエントリーがプールされ、エントリーの25%が勝者として選択されます(最大25)。 エントリーの数に関係なく、各人は一度だけ勝つことができます。誰かの名前が再び描かれた場合、それは破棄され、新しい名前が描かれます。 持っているエントリの数を知っています(最大6) エントリの種類ごとに分類された合計エントリ数がわかります 何人のエントリーが同じ人によるリピートエントリーなのかわかりません。 タイプ別のエントリ数は次のとおりです。 タイプ1:42タイプ2:72タイプ3:119タイプ4:217タイプ5:156タイプ6:178 この状況で勝つ確率を見積もることはできますか?各勝者がプールから削除するエントリの数がわからないため、私は初期の勝者が私のチャンスにどのように影響するかを予測できないという事実に少し混乱しています。 私はデータセットが与えられた解決策に興味がありますが、それを計算するための適切な手順/アルゴリズムにも興味があります。

2
指数関数的に減衰する共分散関数を使用したガウス(Ornstein Uhlenbeck)プロセスのシミュレーション
ガウス過程、平均0と共分散関数。1 ≤ T ≤ T γ (S 、T )= EXP (- | T - S |)ei(t)ei(t)e_i(t)1≤t≤T1≤t≤T1\leq t \leq Tγ(s,t)=exp(−|t−s|)γ(s,t)=exp⁡(−|t−s|)\gamma(s,t)=\exp(-|t-s|) 共分散行列の平方根の計算を含まない、これを行う効率的な方法はありますか?または、誰でもこれを行うためのパッケージを推奨できますか?T×TT×TT \times TR

1
訴訟でのDNAの使用
私は現在、新聞を見つけた次の記事に基づいて、ニールオーウェンの次のケースを研究しています。 「20歳の学生は、イギリスの犯罪歴で最大のDNA検査プログラムの1つを行った後、女子生徒の残忍なレイプと殺害のために昨日終身刑を言い渡されました。ニールオーウェンは彼の遺伝子指紋が敷地内で2000人の男性を大量DNAスクリーニングした後、現場で発見されたDNAと一致しました。彼は犠牲者の家から100ヤードしか住んでいませんでした。実験室での実験では、他の誰かが1億6千万人に1人の割合で殺人の可能性があることが明らかになりました。」 ここでまず第一に、私はここで検察官の誤りに問題があることを認識しています。1億6,000万分の1は、実際にP(一致する血液型の無罪)を指す場合、P(一致する血液型の証拠)として解釈されるためです。しかし、私の質問は、防衛の推論に言及しています。 弁護人はイギリスには約3,000万人の男性がいると指摘し、オーウェンが有罪であった正しい確率は約16/19であり、合理的な疑いを超えて有罪判決を下すには十分高くないと主張した。だから私の二つの質問は 1. 16/19という数値が計算されたと思いますか?(人口3,000万人、1億6000万分の1の確率が使われたと思いますか?) 2.どのような暗黙の仮定がなされましたか、そしてそれらはどのくらい妥当ですか?

2
2D空間上の点の均一分布に関する関係の確率
ノードのセットが2Dサーフェス散在していると仮定して、任意のについて、内のノード数がパラメーター付きのポアソン分布に従うようにします。、ここでショーサブセットの面積と点の強度(単位面積当たりの点の平均数)です。SS\mathcal{S}A⊂SA⊂S\mathcal{A} \subset \mathcal{S}AA\mathcal{A}|A|ρ|A|ρ|\mathcal{A}| \rhoρ|A||A||\mathcal{A}|AA\mathcal{A}ρρ\rho 半径特定の円の内側の点のみに関心があります。円内のノード数は、パラメーター持つポアソン変数です。円の内側から2つのノードをランダムに選択します。ましょうと円の中央から第1及び第2のノードの距離を示しています。rrrρπr2ρπr2\rho \pi r^2d1d1d_1d2d2d_2 イベントの確率を計算するにはどうすればよいですか。 d12&lt;d22A(1+Bd22)d12&lt;d22A(1+Bd22) {d_1}^2 < \frac{{d_2}^2}{A(1+B{d_2}^2)} ここで、とは定数です。AAABBB 編集: およびと想定し。A&gt;0A&gt;0A > 0B&gt;0B&gt;0B > 0 プロセスによって生成されるポイントではなく、プロセス自体に興味があります(whuberが彼の回答で説明したように)。 どのようにした場合についてと置き換えられとのための(私は推測する、以来、この修正問題およびは均一に分散されなくなりました)。 D 2 2 D 1 α D 2 αα&gt;2 D 1 α D 2 αd12d12{d_1}^2d22d22{d_2}^2d1αd1α{d_1}^\alphad2αd2α{d_2}^\alphaα&gt;2α&gt;2\alpha > 2d1αd1α{d_1}^\alphad2αd2α{d_2}^\alpha

1
ガンマ分布からポアソン分布を導き出す方法は?
ましょうT1,T2,…T1,T2,…T_1, T_2, \dotsパラメータの指数確率変数のIIDシーケンスですλλ\lambda。合計は、ガンマ分布です。今私が理解しているように、ポアソン分布はによって次のように定義されています:N tSn=T1+T2+⋯+TnSn=T1+T2+⋯+TnS_n = T_1 + T_2 + \dots + T_nNtNtN_t Nt=max{k:Sk≤t}Nt=max{k:Sk≤t}N_t = \max\{k: S_k \le t\} がポアソン確率変数であることを正式に示すにはどうすればよいですか?NtNtN_t どんな提案も歓迎します。いくつかの証明を試みましたが、最終的な方程式に到達できませんでした。 参考文献 http://en.wikipedia.org/wiki/Exponential_distribution http://en.wikipedia.org/wiki/Gamma_distribution http://en.wikipedia.org/wiki/Poisson_distribution

2
端に着地することが多いコインに公正なコインテストを適用できますか?
コインを裏返して268の表と98の裏を取得した場合、コインが公正である確率をいくつかの方法で計算できます。単純なヒューリスティックな観察では、そのようなコインは不公平であると結論付ける可能性が最も高いでしょう。私はRでp値を計算しました: &gt; coin &lt;- pbinom(98, 366, 0.5) &gt; coin*2 [1] 2.214369e-19 この値は.05よりも小さいため、公正なコインであるという仮説を棄却します。 しかし、裁判中に同じコインが676回横に落ちたと言ったとしたらどうでしょう。ヒューリスティックに同じ結論に達する可能性が高いですが、典​​型的なフェアコインテストはまだ有効ですか? これは問題を説明するグラフです: 日陰の領域でイベントが発生する確率が等しいという仮説を検証する有効な方法は何ですか? 注:グラフの図には、629のプラスの動き(413のマイナス)があります。 データを生成するRコード: require("quantmod") ticker &lt;- getSymbols("SLV")[,6] change &lt;- (ticker - lag(ticker, 24)) / lag(ticker, 24) change &lt;- na.locf(change, na.rm=TRUE) # some other calculations dens &lt;- density(change) plot(dens) # some formatting stuff

1
非対称の事前知識を持つ多項分布のベイズ推定?
二項分布からいくつかのサンプルを取得するとします。私の以前の知識をモデル化する1つの方法は、パラメーターおよびベータ分布を使用することです。私が理解しているように、これは試験で「頭」を回見たのと同じです。そのため、本格的なベイジアン推論を行うための良い近道は、回の試行で頭を見た後の「頭」の確率の新しい平均としてを使用することです。β α α + β H + ααα\alphaββ\betaαα\alphaα + βα+β\alpha + \beta HのNh + αn + α + βh+αん+α+β\frac{h+\alpha}{n+\alpha+\beta}hhhんんn ここで、3つ以上の状態があると仮定します。そのため、多項分布からいくつかのサンプルを取得します。事前分布としてパラメーターを使用したディリクレ分布を使用するとします。ここでもショートカットとして、これをイベントの確率の事前知識としてと同等に扱うことができます回の試行でイベント回を目撃した場合、私の事後なります。。I α Iαα\alpha私私i IHNIH+αIα私Σのαjα私Σαj\frac{\alpha_i}{\sum \alpha_j}私私i hhhんんn私私ih + α私N + Σ αjh+α私ん+Σαj\frac{h + \alpha_i}{n + \sum \alpha_j} 今二項の場合には、それは「頭」の事前知識が発生していることをうまくいくで時間を裁判起こる「尾」に相当しますで時間をトライアル。論理的には、「尾」よりも「頭」の可能性についてより強い知識を持つことができるとは思いません。ただし、これは2つ以上の結果を伴ってより興味深いものになります。私が6面ダイスと言った場合、50トライアルではサイド1の事前知識は10に相当し、100トライアルではサイド2の事前知識は15 2に相当すると想像できます。α + β β α + βαα\alphaα + βα+β\alpha + \betaββ\betaα + βα+β\alpha + …

4
2つのデータポイントと専門家の制約に一致する、おそらく珍しい分布を求めていますか?
ベイジアンメタアナリシスの以前の分布を述べようとしています。 確率変数に関する次の情報があります。 2つの観察:3.0、3.6 変数を研究する科学者は、であり、6という高い値はゼロ以外の確率を持つと私に言っています。P(X&lt;2)=P(X&gt;8)=0P(X&lt;2)=P(X&gt;8)=0P(X<2)=P(X>8)=0 私は、最適化に次のアプローチを使用している(ログ-Nのモードを= :eμ−σ2)eμ−σ2)e^{\mu-\sigma^2)} prior &lt;- function(parms, x, alpha) { a &lt;- abs(plnorm(x[1], parms[1], parms[2]) - (alpha/2)) b &lt;- abs(plnorm(x[2], parms[1], parms[2]) - (1-alpha/2)) mode &lt;- exp(parms[1] - parms[2]^2) c &lt;- abs(mode-3.3) return(a + b + c) } v = nlm(prior,c(log(3.3),0.14),alpha=0.05,x=c(2.5,7.5)) x &lt;- seq(1,10,0.1) plot(x, dlnorm(x, v$estimate[1], v$estimate[2])) …


3
コインのトスの確率変数の期待値
今日、興味深い問題に遭遇しました。あなたはコインとxのお金を与えられます、あなたが頭を手に入れるならあなたはお金を2倍にし、どんなトスでも尾を引くならあなたは半分を失います。 n回の試行でのお金の期待値は何ですか (1)で期待値を超える確率はどれくらいか これが私がそれに取り組んだ方法です。表と裏の確率は同じです(1/2)。最初のトス後の期待値=したがって、最初のトス後の期待値はです。同様に、5x / 4で2回目のトス期待を繰り返し、2回目のトス後の期待値=1/2(2∗x)+1/2(1/2∗x)=5x/41/2(2∗x)+1/2(1/2∗x)=5x/41/2(2*x) + 1/2(1/2*x) = 5x/45x/45x/45x/41/2(2∗5x/4)+1/2(1/2∗5x/4)=25x/161/2(2∗5x/4)+1/2(1/2∗5x/4)=25x/161/2(2*5x/4) + 1/2(1/2*5x/4) = 25x/16 あなたが期待される値のシーケンスを取得するよう:、、、...25 x / 16 125 x / 645x/45x/45x/425x/1625x/1625x/16125x/64125x/64125x/64 後回の試行、あなたの期待値は次のようになります。(5 n / 4 n)∗ xnnn(5n/4n)∗x(5n/4n)∗x(5^n/4^n) * x 場合十分な大きさで、あなたの期待値は、分布の平均に近づく必要があります。したがって、値が期待値より大きい確率はなるはずです。これについてはわかりません。0.5nnn0.50.50.5

2
長方形内の一様にランダムな点がユークリッド距離が指定されたしきい値よりも小さい確率
持っていると仮定します nnn 境界のある長方形の点 [0,a]×[0,b][0,a]×[0,b][0,a] \times [0,b]、これらの点はこの平面に均一に分布しています。(私は統計に精通していないので、エリア内のノードを均一に選択することの違いがわかりません[0,a]×[0,b][0,a]×[0,b][0,a] \times [0,b]、または均一に選ぶ xxx-軸 [0,a][0,a][0,a] そして yyy-軸 [0,b][0,b][0,b] 独立して)。 距離のしきい値が与えられた ddd、2点のユークリッド距離が次の値よりも小さい確率を知りたい場合があります。 ddd、またはより正確には、ノードの距離のペアがいくつになるか ddd? たぶん、次の説明はあいまいではありません。 この問題を特定させてください。与えられたnnn ノードとしきい値 ddd。これらnnn ポイントは長方形に均一に分布しています [0,a]×[0,b][0,a]×[0,b][0,a] \times [0,b]。確率変数を表すξξ\xi 距離内のポイントのペアの数として ddd。探すE[ξ]E[ξ]E[\xi]。

2
正確な検定では常に、近似検定よりも高いP値が得られますか?
その上でmcnemarテストのシミュレーションを実行しましたが、答えは「はい」のようでした。 これは常に、正確なP値が近似によって到達したp値よりも高い(または小さくない)場合であると言えるのではないかと思っていました。 たとえばいくつかのコード: set.seed(234) n &lt;- 100 # number of total subjects P &lt;- numeric(100) P_exact &lt;- numeric(100) for(i in 1:100) { x = table(sample(1:2, n, T), sample(1:2, n, T)) P[i] &lt;- mcnemar.test(x, correct = F)$p.v P_exact[i] &lt;- binom.test(x[2,1],x[1,2]+x[2,1])$p.valu } #for different n - the level of problem is worse …

4
条件付き確率でデータセットを作成する方法は?
ある病気(DDD)の有病率 3100031000\dfrac3{1000}。また、ある症状(SSS)有病率(一般集団=その病気の人) Dおよびその疾患のない人(おそらく他の疾患にかかっているが、それは重要ではない))の 5100051000\dfrac5{1000}。以前の研究では、条件付き確率がP(S|D)=30%P(S|D)=30%P(S|D) = 30\% (症状が出る確率 SSS、病気を考えると DDD です 30%30%30\%)。 最初の質問:P(S|D)P(S|D)P(S|D) 症状の有病率と同等と解釈される SSS 病気にかかっている人々のグループで DDD? 2番目の質問:Rでデータセットを作成します。 P(D|S)=P(S|D)P(D)P(S)P(D|S)=P(S|D)P(D)P(S)P(D|S) = \frac{P(S|D)P(D)} {P(S)} 私の架空のデータを使って、 P(D|S)=0.18P(D|S)=0.18P(D|S)=0.18、それはこのように解釈されます:症状のある患者がいる場合 SSS、彼が病気にかかっている確率 DDD です 18%18%18\%。 これを行う方法?sample関数を単純に使用すると、データセットには次の情報が不足しています。P(S|D)=30%P(S|D)=30%P(S|D)=30\%: symptom &lt;- sample(c("yes","no"), 1000, prob=c(0.005, 0.995), rep=T) disease &lt;- sample(c("yes","no"), 1000, prob=c(0.002, 0.998), rep=T) だから私の質問は:私が望む条件付き確率を含めて、良いデータセットを作成する方法は? 編集:私の意見では、私の質問のため、私は同じ質問をstackoverflow.com(/programming/7291935/how-to-create-a-dataset-with-conditional-probability)にも投稿しましたR言語プログラムに継承されますが、統計理論にも継承されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.