タグ付けされた質問 「conditional-probability」

別のイベントBが発生した、または発生したことがわかっているときに、イベントAが発生する確率。通常、P(A | B)で表されます。

2
ベイズの定理をの形式で使用しないのはなぜですか?
連続的な場合のベイズの公式のいくつかのあいまいさについては(このように)多くの質問があります。 p(θ|x)=p(x|θ)⋅p(θ)p(x)p(θ|x)=p(x|θ)⋅p(θ)p(x)p(\theta | x) = \frac{p(x | \theta) \cdot p(\theta)}{p(x)} 多くの場合、条件付き分布定義は、が指定された固定の関数であると説明されているという事実から混乱が生じ。f(variable|parameter)f(variable|parameter)f(variable | parameter) fffvariablevariablevariableparameterparameterparameter それに加えて、尤度は次のように記述できることを示す等価原理があります L(θ|x)=p(x|θ)L(θ|x)=p(x|θ) L(\theta | x) = p(x | \theta) それでは、なぜ次の形式の分布にベイズ規則を使用しないのですか? P (θ | X )= L (θ | X )⋅ P (θ )p (x )p(θ|x)=L(θ|x)⋅p(θ)p(x)p(\theta | x) = \frac{L(\theta | x) \cdot p(\theta)}{p(x)} 観測データxが与えられた\ thetaの関数を 扱っていること、およびそれぞれの項が尤度(少なくともLで始まる)であることを強調するには?θθ\thetaバツxxLLL …

2
さまざまな規模の企業の機関車の問題
私はThink Bayes(ここから無料です:http : //www.greenteapress.com/thinkbayes/)で作業しており、エクササイズ3.1に取り組んでいます。問題の概要は次のとおりです。 「鉄道は機関車に1..Nの順序で番号を付けています。ある日、60番の機関車が見えます。鉄道が持っている機関車の数を見積もります。」 このソリューションは、次のように尤度関数と指数事前分布で見つかります。 class Train(Suite): def __init__(self, hypos, alpha=1.0): # Create an exponential prior Pmf.__init__(self) for hypo in hypos: self.Set(hypo, hypo**(-alpha)) self.Normalize() def Likelihood(self, data, hypo): if hypo < data: return 0 else: return (1.0/hypo) 概念的には、これは、仮説の1つより大きいトレイン番号(1 ... 1000)が表示された場合、小さい仮説すべてが正しい可能性がゼロであることを示しています。残りの仮説には、1 / number_of_trainsの確率でこの番号の列車が表示されます。 私が作成者に取り組んでいる演習では、少し余分なものを追加します。これは、会社が1つしかないことを前提としています。ただし、実際には、大企業と中小企業、および大企業(どちらも同じくらい可能性があります)が混在しています。ただし、これは、大企業の列車の方が多いため、大企業の列車を見る可能性が高くなることを意味します。 ここで問題は、これを尤度関数にどのように反映するかです。 これはスタックオーバーフローではないので、実際にコーディングのヘルプを求めているのではなく、尤度関数の観点からこの問題についてどのように考えるかについて単に助けているだけかもしれません。

5
Coxの2つのルールからP(C | A + B)を導出する
私はETジェインズの本の確率論-科学の論理-を通して自分のやり方(自習)をしています 元の問題 演習2.1では、「[式類似した一般式を見つけることはできますか ]積と合計のルールから。そうである場合はそれを導き出し、そうでない場合は、これを実行できない理由を説明してください。」p (C| A+B)p(C|A+B)p(C|A+B)p (A + B | C)= p (A | C)+ p (B | C)− p (A B | C)p(A+B|C)=p(A|C)+p(B|C)−p(AB|C)p(A+B|C)=p(A|C)+p(B|C)-p(AB|C) ギブンズ 私が使用しなければならないルールは次のとおりです。 p (A B | C)= p (A | C)p (B | A C)= p (B | C)p (A | B C)p(AB|C)=p(A|C)p(B|AC)=p(B|C)p(A|BC)p(AB | C) = …

1
切り捨てられたRV導出の条件付き予想、Gumbel分布(ロジスティック差異)
私は独立同一分布している2つの確率変数、すなわち持っ:ϵ1,ϵ0∼iidGumbel(μ,β)ϵ1,ϵ0∼iidGumbel(μ,β)\epsilon_{1}, \epsilon_{0} \overset{\text{iid}}{\sim} \text{Gumbel}(\mu,\beta) F(ϵ)=exp(−exp(−ϵ−μβ)),F(ϵ)=exp⁡(−exp⁡(−ϵ−μβ)),F(\epsilon) = \exp(-\exp(-\frac{\epsilon-\mu}{\beta})), f(ϵ)=1βexp(−(ϵ−μβ+exp(−ϵ−μβ))).f(ϵ)=1βexp⁡(−(ϵ−μβ+exp⁡(−ϵ−μβ))).f(\epsilon) = \dfrac{1}{\beta}\exp(-\left(\frac{\epsilon-\mu}{\beta}+\exp(-\frac{\epsilon-\mu}{\beta})\right)). 2つの量を計算しようとしています。 Eϵ1Eϵ0|ϵ1[c+ϵ1|c+ϵ1&gt;ϵ0]Eϵ1Eϵ0|ϵ1[c+ϵ1|c+ϵ1&gt;ϵ0]\mathbb{E}_{\epsilon_{1}}\mathbb{E}_{\epsilon_{0}|\epsilon_{1}}\left[c+\epsilon_{1}|c+\epsilon_{1}>\epsilon_{0}\right] Eϵ1Eϵ0|ϵ1[ϵ0|c+ϵ1&lt;ϵ0]Eϵ1Eϵ0|ϵ1[ϵ0|c+ϵ1&lt;ϵ0]\mathbb{E}_{\epsilon_{1}}\mathbb{E}_{\epsilon_{0}|\epsilon_{1}}\left[\epsilon_{0}|c+\epsilon_{1}<\epsilon_{0}\right] 私は、フォームの何かで統合を行う必要があるポイントに到達します:。これは、閉じたフォームに積分がないようです。誰かがこれを手伝ってくれる?多分私は何か間違ったことをした。eexeexe^{e^{x}} 私は間違いなく閉じた形のソリューションがあるべきだと感じています。(編集:それが閉じた形式ではない場合でも、積分をすばやく評価するためのソフトウェアがある[Ei(x)など]があれば、それは大丈夫だと思います。) 編集: 変数の変更に伴い、 およびy=exp(−ϵ1−μβ)y=exp⁡(−ϵ1−μβ)y =\exp(-\frac{\epsilon_{1}-\mu}{\beta}) μ−βlny=ϵ1μ−βln⁡y=ϵ1\mu-\beta\ln y =\epsilon_{1} これはおよび [ 0 、[0,∞)[0,∞)[0,\;\infty)それぞれ。[0,exp(−ϵ0−c−μβ)][0,exp⁡(−ϵ0−c−μβ)]\left[0,\;\exp(-\frac{\epsilon_{0}-c-\mu}{\beta})\right] 。次に、変数の変更の下で、(1)を煮詰めました...|J|=|dϵdy|=βy|J|=|dϵdy|=βy|J|=|\dfrac{d\epsilon}{dy}|=\frac{\beta}{y} ∫∞011−e−x(∫∞μ−βlnx−c[c+μ−βlny]e−ydy)e−xdx∫0∞11−e−x(∫μ−βln⁡x−c∞[c+μ−βln⁡y]e−ydy)e−xdx\int_{0}^{\infty}\dfrac{1}{1-e^{-x}}\left(\int_{\mu-\beta\ln x-c}^{\infty}\left[c+\mu-\beta\ln y\right]e^{-y}dy\right)e^{-x}dx 代数の間違いがあるかもしれませんが、私はまだこの積分を解決できません... 関連質問:iidガンベル変数の最大値への期待

1
-algebrasの条件付き期待値の計算
離散確率変数によって生成された -algebras を除いて、条件付き期待値を計算する確率の本は実際には見たことがありません。彼らは単に、条件付き期待の存在とその特性を述べ、そのままにしておきます。私はこれを少し動揺させて、それを計算する方法を見つけようとしています。これが「あるべき」だと私は思います。σσ\sigma ましょう確率空間である A -代数。ましょう確率変数です。私たちの目標は、を計算することです。(Ω,F,μ)(Ω,F,μ)(\Omega, \mathscr{F},\mu)G⊆FG⊆F\mathscr{G}\subseteq \mathscr{F}σσ\sigmaξ:Ω→Rξ:Ω→R\xi:\Omega\to \mathbb{R}E[ξ|G]E[ξ|G]E[\xi|\mathscr{G}] 修正しますを計算する必要があります。LET、そのようなことが。直感では、はの値への近似値であるとされていますが、もちろんそのあると仮定します。ω∈Ωω∈Ω\omega\in \OmegaE[ξ|G](ω)E[ξ|G](ω)E[\xi|\mathscr{G}](\omega)A∈GA∈GA\in \mathscr{G}ω∈Aω∈A\omega\in AE[ξ|A]=1μ(A)∫AξE[ξ|A]=1μ(A)∫AξE[\xi|A] = \frac1{\mu(A)}\int_A \xiE[ξ|G](ω)E[ξ|G](ω)E[\xi|\mathscr{G}](\omega)μ(A)≠0μ(A)≠0\mu(A) \not = 0 直感はまた、\ omega \ in Bで、より小さいイベント見つけることができ、\ mu(B)\ not = 0の場合、E [\ xi | B]はE [のより良い近似であると述べています\ mathscr {G}(\オメガ)| \ XIよりE [\ XI | A] 。B⊆AB⊆AB\subseteq Aω∈Bω∈B\omega\in Bμ(B)≠0μ(B)≠0\mu(B) \not = 0E[ξ|B]E[ξ|B]E[\xi|B]E[ξ|G](ω)E[ξ|G](ω)E[\xi|\mathscr{G}](\omega)E[ξ|A]E[ξ|A]E[\xi|A] したがって、E [\ xi …

1
火星攻撃(ミサイルで
地球が火星の宇宙船に攻撃されたと仮定し、宇宙船に対してミサイルを発射するとします。各ミサイルが各宇宙船に命中して破壊する確率は(他のミサイルとは無関係です)。nnnm=k⋅nm=k⋅nm=k \cdot nnnnppp すべてのミサイルを同時にリリースするが、各ミサイルがランダムに宇宙船を選択する場合、すべての宇宙船を破壊する確率はどのくらいですか?

3
イベントと確率変数の関係は何ですか?
イベントは割り当てられたランダム変数に過ぎず、ランダム変数はイベントの一般化であると言われました。しかし、それをサンプル空間のサブセットとしてのイベントの定義に関連付けることはできません。さらに、確率変数は複数の結果を持つことができるのに対し、イベントは発生するかしないかのどちらかです。 イベントはバイナリ確率変数のようなものですか?もしそうなら、確率変数の各結果は本当にイベントですか? また、条件付きの独立性の観点から、2つの概念が互いにどのように関連しているかを知る必要もあります。

1
条件付き確率の導出で起こり得る間違い
以下は、私が現在研究している論文からの密度の導出です。品質が悪いため申し訳ありませんが、それはかなり古い紙です。私はそれを明確にする必要内標準指数密度有する(0 、∞ )、Uは上に均一である(0 、1 )それらが独立しています。もちろん、人口相関係数ρは定数です。XとYは、標準の2変量正規分布、つまり三角法の表現に由来しますが、これはここでは何の役割も果たしていないと思います。RRR(0 、∞ )(0,∞)(0,\infty)UUU(0 、1 )(0,1)(0,1)ρρ\rhoバツXXYYY 私が理解していないのは、著者が正または負のについてこれらの結論に到達する方法です。負の数による除算とRの非負性は適切に考慮されていないように思えます。もちろん間違えることもありますので、アドバイスをいただければ幸いです。ありがとうございました。tttRRR

1
Gibbs Samplerトランジションカーネル
ましょう上のターゲット分布である絶対連続的にWRTされる次元ルベーグ測度、すなわち:ππ\pi(Rd,B(Rd))(Rd,B(Rd))(\mathbb{R}^d,\mathcal{B}(\mathbb{R^d}))ddd ππ\pi、密度をに π(x1,...,xd)π(x1,...,xd)\pi(x_1,...,x_d)λdλd\lambda^dλd(dx1,...,dxd)=λ(dx1)⋅⋅⋅λ(dxd)λd(dx1,...,dxd)=λ(dx1)⋅⋅⋅λ(dxd)\lambda^d(dx_1,...,dx_d) = \lambda(dx_1) \cdot \cdot \cdot \lambda (dx_d) からの完全な条件がわかっていると仮定します。したがって、Gibbs-Samplerの遷移カーネルはからの完全な条件文の積です。πi(xi|x−i)πi(xi|x−i)\pi_i(x_i|x_{-i})ππ\piππ\pi 遷移カーネルも、次元ルベーグ測度に対して絶対的に継続的に処理されますか?ddd

2
なぜ共役事前分布の混合物が重要なのですか?
共役事前分布の混合について質問があります。ベイジアンを学習しているときに、共役事前分布の混合を数回学び、言いました。この定理がなぜそれほど重要であるのか、ベイジアン分析を行うときにどのようにそれを適用するのでしょうか。 具体的には、Diaconis and Ylivisaker 1985の定理の1つが次のように定理を示しています。 指数ファミリーからのサンプリングモデル与えられると、事前分布は共役事前分布の有限混合によって近似できます。p (y|θ )p(y|θ)p(y|\theta) より具体的には、事前の与えられると、事後を導出できます:p (θ)= ∫p (θ | ω )p ( ω )dωp(θ)=∫p(θ|ω)p(ω)dωp(\theta)=\int p(\theta|\omega)p(\omega)d\omega p (θ | Y)α ∫p (Y| θ)p(θ | ω)p(ω)dω α ∫p (Y| θ)p(θ | ω)p (Y| ω)p (Y| ω)p(ω)dω∝∫p (θ |Y、ω )p (Y| ω)p(ω)dωp(θ|Y)α∫p(Y|θ)p(θ|ω)p(ω)dωα∫p(Y|θ)p(θ|ω)p(Y|ω)p(Y|ω)p(ω)dωα∫p(θ|Y、ω)p(Y|ω)p(ω)dωp(\theta|Y)\propto\int p(Y|\theta)p(\theta|\omega)p(\omega)d\omega\propto\int \frac{p(Y|\theta)p(\theta|\omega)}{p(Y|\omega)}p(Y|\omega)p(\omega)d\omega\propto \int p(\theta|Y, \omega)p(Y|\omega)p(\omega)d\omega したがって、 p …

2
ポアソンプロセスの総期待定理
2つの独立したポアソンプロセスとがあり、それぞれ到着率がとです。これで、マージされたプロセスの次のアイテムの到着予定時刻はです。AAABBBλAλA\lambda_AλBλB\lambda_B1λA+λB1λA+λB\frac {1}{\lambda_A+\lambda_B} が結合されたプロセスの次のアイテムの到着時間であり、またはがプロセスまたはからのアイテムであるイベントであると仮定すると、総期待の法則を使用して、TA+BTA+BT_{A+B}{X=A}{X=A}\{X=A\}{X=B}{X=B}\{X=B\}AAABBB E( TA + B)= E(TA + B∣ X= A )P [ X= A ] + E(TA + B∣ X= B )P [ X= B ]= 1λあλあλあ+ λB+ 1λBλBλあ+ λB= 2λあ+ λBE(TA+B)=E(TA+B∣X=A)P[X=A]+E(TA+B∣X=B)P[X=B]=1λAλAλA+λB+1λBλBλA+λB=2λA+λB \begin{align} \mathbb{E}(T_{A+B}) &= \mathbb{E}( T_{A+B} \mid X =A )\mathbb{P}[X = A] + \mathbb{E}( T_{A+B}\mid X =B)\mathbb{P}[X …

1
交換条件が混在する黒と白のボールのセットで黒のボールを描く確率
黒いボールが描かれた場合、セットでは置き換えられず、白いボールが置き換えられます。 私はこれについて、次の表記で考えました: bbb、www黒と白のボールの初期数 xi=(b−i)/(b+w−i)xi=(b−i)/(b+w−i)x_i = (b - i)/(b + w - i) nがドローした後に黒いボールをドローする確率Pb(n)Pb(n)Pb(n): Pb(0)Pb(1)Pb(2)Pb(n)=x0=(1−x0)x0+x0x1=(1−x0)2x0+x0x1(1−x0)+x0x1(1−x1)+x0x1x2=∑k=0n−1(∏i=0kxi∏i&lt;=kn−k terms1−xi)Pb(0)=x0Pb(1)=(1−x0)x0+x0x1Pb(2)=(1−x0)2x0+x0x1(1−x0)+x0x1(1−x1)+x0x1x2Pb(n)=∑k=0n−1(∏i=0kxi∏i&lt;=kn−k terms1−xi)\eqalign{ Pb(0) &= x_0\\ Pb(1) &= (1-x_0)x_0 + x_0x_1\\ Pb(2) &= (1-x_0)^2x_0 + x_0x_1(1-x_0)+ x_0x_1(1-x_1) + x_0x_1x_2 \\ Pb(n) &= \sum\limits_{k=0}^{n-1} (\prod\limits_{i=0}^k x_i \prod\limits_{i<=k}^{n-k\ terms} 1-x_i) } この合計は、いくつかの用語がnullであっても、と無限のようだn個xi≥b=0xi≥b=0x_{i \ge b}=0 除く:P b (n )= (1 …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
2つのOH NFLチームが31週間行って同じ日に勝利しない確率
私はこれを明白な方法で行いました、そして私の友人はより良いアイデアを持って戻ってきました。両方を審査または改善できますか? 私のやり方: シンシナティベンガルズとクリーブランドブラウンズの両方が日曜日に46週間で初めて勝利しました(ESPNによると)。それはあまりありそうにないように見えました... 46は高すぎます。さようなら週、MNFナイト、対戦などを考慮に入れると、31週間でそれぞれが勝つチャンスがありました。 これで、2009年以降のそれぞれのレコード(CLE:11-31、CIN:18-24)を取得して、任意の週の勝率を計算できます。これにより、同じ週に両方が勝つ確率は11%になります(独立を想定)。 それで...この31週間の干ばつの可能性?2.5%...統計的に有意ですが、地球を破壊することはありません。参考までに、これらのチームが特定の週に勝つ可能性さえもあれば、確率は0.01%に急落します! 私の友人の応答: これは私が今まで読んだ中で最も考えさせる刺激的な投稿です…今私はそれについて考えて30分を費やしました。とにかく…たぶん今は馬鹿みたいに聞こえるかもしれませんが、独立の前提が正しいかどうかはわかりません。この問題をより正確に考える方法は、古典的な瓶とボールの問題だと思います。したがって、接戦ゲームとmnfゲームなどすべてを無視すると、ベンガルズとブラウンズは42ゲームをプレイしています。今度は、まず茶色の11勝を別々の瓶に入れましょう。したがって、ベンガルによって18勝を1つずつ瓶に入れると、31/42の確率で最初の勝利が茶色の勝利の瓶に収まらない可能性があります。2番目の勝利は30の確率です。 / 41(ないので tには、以前のベンガルの勝利と同じjarに入るオプションがあります)... 3番目には、ベンガルの勝利でjarになっていない可能性があります。そのように考えると、18のベンガルズの勝利と11のブラウンズの勝利がすべてjarファイルに入れられた後、ベンガルズの勝利とブラウンの勝利が同じjarに到達しない可能性は〜.058%です。 とにかく... .500を超える勝率を持つ2つのチームが同じ週末に.500を超えるスパンで同じ週末に勝つことがない確率は0%なので、考えてみると少し正確な方法かもしれません。思う。 ゲームは独立したイベントであるという直感的な感覚を除いて、すべてが理にかなっています(どちらのチームも他方について考えていなかったと仮定します)。誰が正しいのですか?ありがとう!

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.