タグ付けされた質問 「bayes」

特に条件付き推論に使用される確率とベイズの定理を組み合わせる。

1
これは、ベイズの定理を使用して確率を継続的に更新する正しい方法ですか?
私が誰かの好きなアイスクリームのフレーバーがバニラである可能性を見つけようとしているとしましょう。 私はその人がホラー映画も楽しんでいることを知っています。 ホラー映画を楽しんでいる人にとって、お気に入りのアイスクリームがバニラである確率を知りたいのです。 私は次のことを知っています。 5 %5%5\%の人々は、バニラを好きなアイスクリームの味として選んでいます。(これは私の)P(A )P(A)P(A) 10 %10%10\%バニラアイスクリームが好きな人のもホラー映画が大好きです。(これは私の)P(B | A )P(B|A)P(B|A) 1 %1%1\%バニラアイスクリームが好きではない人のもホラー映画を愛しています(これは私の)P(B | ¬ A )P(B|¬A)P(B|\lnot A) だから、私はこのようにそれを計算する: 私は発見(最も近い1万分の1に四捨五入)。ホラー映画ファンのお気に入りのアイスクリーム味がバニラである可能性はです。 P(A|B)=0.344834.48%P(A | B )= 0.05 × 0.1(0.05 × 0.1 )+ (0.01 × (1 − 0.05 ))P(A|B)=0.05×0.1(0.05×0.1)+(0.01×(1−0.05))P(A|B)=\frac{0.05\times0.1}{(0.05 \times 0.1)+(0.01 \times(1-0.05))}P(A | B )= 0.3448P(あ|B)=0.3448P(A|B) = 0.344834.48 %34.48%34.48\% しかし、その人が過去30日間にホラー映画を見たことがわかります。これが私が知っていることです: 34.48 %34.48%34.48\%は、バニラがその人のお気に入りのアイスクリーム味である更新された事後確率です。この次の問題ではです。P(A …

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


2
さまざまな規模の企業の機関車の問題
私はThink Bayes(ここから無料です:http : //www.greenteapress.com/thinkbayes/)で作業しており、エクササイズ3.1に取り組んでいます。問題の概要は次のとおりです。 「鉄道は機関車に1..Nの順序で番号を付けています。ある日、60番の機関車が見えます。鉄道が持っている機関車の数を見積もります。」 このソリューションは、次のように尤度関数と指数事前分布で見つかります。 class Train(Suite): def __init__(self, hypos, alpha=1.0): # Create an exponential prior Pmf.__init__(self) for hypo in hypos: self.Set(hypo, hypo**(-alpha)) self.Normalize() def Likelihood(self, data, hypo): if hypo < data: return 0 else: return (1.0/hypo) 概念的には、これは、仮説の1つより大きいトレイン番号(1 ... 1000)が表示された場合、小さい仮説すべてが正しい可能性がゼロであることを示しています。残りの仮説には、1 / number_of_trainsの確率でこの番号の列車が表示されます。 私が作成者に取り組んでいる演習では、少し余分なものを追加します。これは、会社が1つしかないことを前提としています。ただし、実際には、大企業と中小企業、および大企業(どちらも同じくらい可能性があります)が混在しています。ただし、これは、大企業の列車の方が多いため、大企業の列車を見る可能性が高くなることを意味します。 ここで問題は、これを尤度関数にどのように反映するかです。 これはスタックオーバーフローではないので、実際にコーディングのヘルプを求めているのではなく、尤度関数の観点からこの問題についてどのように考えるかについて単に助けているだけかもしれません。


1
変分推論エンジン
このトピックについて調査したところ、PythonとRのメッセージパッシングまたは最適化メソッドに依存する推論パッケージとライブラリの驚くべき不足に気づきました。 私の知る限りでは、これらの方法は非常に便利です。たとえば、ベイズネットワーク(有向、非循環)の場合、信念の伝播だけで正確な答えが得られるはずです。ただし、オンラインで利用できるほとんどの推論ソフトウェア(たとえば、STAN、BUGS、PyMC)は、MCMCメソッドに依存しています。 Pythonの場合、私の知る限りでは、PyMC、scikit-learn、statsmodelsのいずれにも、信念伝播、メッセージパッシングメソッド、またはそれらのバリアントなどの変分推論アルゴリズムは含まれていません。 何故ですか?これらの方法は、MCMCの対応物ほど強力でも汎用的でもないため、実際にはあまり使用されていませんか?またはそれは単に人手と時間の不足の問題ですか?

2
連続変数の単純ベイズ
基本的な質問をさせてください。離散変数に対する単純ベイズのメカニズムを理解しており、計算を「手動」でやり直すことができます。(HouseVotes84のコードは以下の通りです)。 ただし-連続変数のメカニズムがどのように機能するかを確認するのに苦労しています(以下のコード例)。パッケージはどのように条件付き確率[, 1]を計算し[, 2]ますか、以下の表を参照してください 個々のX値は一意であるため、各ポイントの周囲に範囲を作成し、これらの範囲内の相対頻度を計算しますか(たとえば、ポイントが+0.311の場合、0.1および+0.5?)これは基本的な質問かもしれません-もしそうなら謝罪します。 テーブル A-priori probabilities: Y blue orange 0.5 0.5 Conditional probabilities: values Y [,1] [,2] blue 0.08703793 0.9238799 orange 1.33486433 0.9988389 コード blue=rep("blue",50); orange=rep("orange",50); colour=c(blue,orange); values1=rnorm(50,0,1); values2=rnorm(50,1,1); values=c(values1,values2) df=data.frame(colour,values) (model <- naiveBayes(colour ~ ., data = df)) (predict(model, df[1:10,])) (predict(model, df[1:10,], type = "raw")) (pred <- …
8 r  naive-bayes  bayes 

3
ベイズ正規化定数の直感
スクリーニングの可能性が80%、事前確率が10%、偽陽性率が50%の一般的に言及されているマンモグラフィスクリーニング問題、またはそのバリアントでは、陽性スクリーニングが癌を示すという条件付き事後確率は簡単に説明できます。存在はわずか15%です。これは、n = 1000、真の癌症例= 100、検出された癌= 80、および偽陽性= 450のカウントによって最も簡単に示されます。陽性スクリーニングが癌の存在を示す確率は、真陽性/(真陽性+誤検知)または80 /(100 + 450)= 0.145または15%。 直感は、真陽性と偽陽性の合計がすべての結果のサブセットを構成するため、真陽性は真陽性と偽陽性の合計に条件付けられるということです。これは、偽陰性と真陰性が計算から除外されるため、条件付きセットがサブセットになるためです。 問題を二項尤度と事前ベータの連続ケースにシフトすると、正規化定数は真陽性の項(p =比例)のように積分になります。 ∫10(nx)px(1−p)n−xΓ(a+b)Γ(a)Γ(b)pa−1(1−p)b−1dp∫01(nx)px(1−p)n−xΓ(a+b)Γ(a)Γ(b)pa−1(1−p)b−1dp\int_0^1 {\left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right)p_{}^x{{(1 - p)}^{n - x}}\frac{{\Gamma (a + b)}}{{\Gamma (a)\Gamma (b)}}p_{}^{a - 1}{{(1 - {p_{}})}^{b - 1}}} dp % MathType!MTEF!2!1!+- % feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn % hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr % 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq-Jc9 % vqaqpepm0xbba9pwe9Q8fs0-yqaqpepae9pg0FirpepeKkFr0xfr-x % fr-xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 % qadaWdXaqaamaabmaapaqaauaabeqaceaaaeaapeGaamOBaaWdaeaa % peGaamiEaaaaaiaawIcacaGLPaaacaWGWbWaa0baaSqaaaqaaiaadI % …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.