統計とビッグデータ bayes

1

私が誰かの好きなアイスクリームのフレーバーがバニラである可能性を見つけようとしているとしましょう。私はその人がホラー映画も楽しんでいることを知っています。ホラー映画を楽しんでいる人にとって、お気に入りのアイスクリームがバニラである確率を知りたいのです。私は次のことを知っています。 5 ％5%5\%の人々は、バニラを好きなアイスクリームの味として選んでいます。（これは私の）P（A ）P(A)P(A) 10 ％10%10\%バニラアイスクリームが好きな人のもホラー映画が大好きです。（これは私の）P（B | A ）P(B|A)P(B|A) 1 ％1%1\%バニラアイスクリームが好きではない人のもホラー映画を愛しています（これは私の）P（B | ¬ A ）P(B|¬A)P(B|\lnot A) だから、私はこのようにそれを計算する：私は発見（最も近い1万分の1に四捨五入）。ホラー映画ファンのお気に入りのアイスクリーム味がバニラである可能性はです。 P（A|B）=0.344834.48％P（A | B ）= 0.05 × 0.1（0.05 × 0.1 ）+ （0.01 × （1 − 0.05 ））P(A|B)=0.05×0.1(0.05×0.1)+(0.01×(1−0.05))P(A|B)=\frac{0.05\times0.1}{(0.05 \times 0.1)+(0.01 \times(1-0.05))}P（A | B ）= 0.3448P（あ|B）=0.3448P(A|B) = 0.344834.48 ％34.48％34.48\% しかし、その人が過去30日間にホラー映画を見たことがわかります。これが私が知っていることです： 34.48 ％34.48％34.48\%は、バニラがその人のお気に入りのアイスクリーム味である更新された事後確率です。この次の問題ではです。P（A …

9 probability bayes

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

MAP推定で「モード」と呼ばれるのはなぜですか？

MAPでパラメーターを推定するとき、「モード」を推定すると書かれているのはなぜですか？事後分布の平均だと思いました？

9 bayesian posterior bayes

2

さまざまな規模の企業の機関車の問題

私はThink Bayes（ここから無料です：http : //www.greenteapress.com/thinkbayes/）で作業しており、エクササイズ3.1に取り組んでいます。問題の概要は次のとおりです。「鉄道は機関車に1..Nの順序で番号を付けています。ある日、60番の機関車が見えます。鉄道が持っている機関車の数を見積もります。」このソリューションは、次のように尤度関数と指数事前分布で見つかります。 class Train(Suite): def __init__(self, hypos, alpha=1.0): # Create an exponential prior Pmf.__init__(self) for hypo in hypos: self.Set(hypo, hypo**(-alpha)) self.Normalize() def Likelihood(self, data, hypo): if hypo < data: return 0 else: return (1.0/hypo) 概念的には、これは、仮説の1つより大きいトレイン番号（1 ... 1000）が表示された場合、小さい仮説すべてが正しい可能性がゼロであることを示しています。残りの仮説には、1 / number_of_trainsの確率でこの番号の列車が表示されます。私が作成者に取り組んでいる演習では、少し余分なものを追加します。これは、会社が1つしかないことを前提としています。ただし、実際には、大企業と中小企業、および大企業（どちらも同じくらい可能性があります）が混在しています。ただし、これは、大企業の列車の方が多いため、大企業の列車を見る可能性が高くなることを意味します。ここで問題は、これを尤度関数にどのように反映するかです。これはスタックオーバーフローではないので、実際にコーディングのヘルプを求めているのではなく、尤度関数の観点からこの問題についてどのように考えるかについて単に助けているだけかもしれません。

9 bayesian conditional-probability bayes

1

ベイズ因子を使用して決定できますか？

ベイズ係数は、特定のモデルがどの程度サポートされているかを示します。制御された実験を実行していて、ヌルモデルと代替モデルの2つのモデルがあるとします。ベイズ係数が高い場合、その治療は効果的であると主張でき、変更を提案できますか？

8 hypothesis-testing bayes bayes-factors

1

変分推論エンジン

このトピックについて調査したところ、PythonとRのメッセージパッシングまたは最適化メソッドに依存する推論パッケージとライブラリの驚くべき不足に気づきました。私の知る限りでは、これらの方法は非常に便利です。たとえば、ベイズネットワーク（有向、非循環）の場合、信念の伝播だけで正確な答えが得られるはずです。ただし、オンラインで利用できるほとんどの推論ソフトウェア（たとえば、STAN、BUGS、PyMC）は、MCMCメソッドに依存しています。 Pythonの場合、私の知る限りでは、PyMC、scikit-learn、statsmodelsのいずれにも、信念伝播、メッセージパッシングメソッド、またはそれらのバリアントなどの変分推論アルゴリズムは含まれていません。何故ですか？これらの方法は、MCMCの対応物ほど強力でも汎用的でもないため、実際にはあまり使用されていませんか？またはそれは単に人手と時間の不足の問題ですか？

8 r python bayes variational-bayes

2

連続変数の単純ベイズ

基本的な質問をさせてください。離散変数に対する単純ベイズのメカニズムを理解しており、計算を「手動」でやり直すことができます。（HouseVotes84のコードは以下の通りです）。ただし-連続変数のメカニズムがどのように機能するかを確認するのに苦労しています（以下のコード例）。パッケージはどのように条件付き確率[, 1]を計算し[, 2]ますか、以下の表を参照してください個々のX値は一意であるため、各ポイントの周囲に範囲を作成し、これらの範囲内の相対頻度を計算しますか（たとえば、ポイントが+0.311の場合、0.1および+0.5？）これは基本的な質問かもしれません-もしそうなら謝罪します。テーブル A-priori probabilities: Y blue orange 0.5 0.5 Conditional probabilities: values Y [,1] [,2] blue 0.08703793 0.9238799 orange 1.33486433 0.9988389 コード blue=rep("blue",50); orange=rep("orange",50); colour=c(blue,orange); values1=rnorm(50,0,1); values2=rnorm(50,1,1); values=c(values1,values2) df=data.frame(colour,values) (model <- naiveBayes(colour ~ ., data = df)) (predict(model, df[1:10,])) (predict(model, df[1:10,], type = "raw")) (pred <- …

8 r naive-bayes bayes

3

ベイズ正規化定数の直感

スクリーニングの可能性が80％、事前確率が10％、偽陽性率が50％の一般的に言及されているマンモグラフィスクリーニング問題、またはそのバリアントでは、陽性スクリーニングが癌を示すという条件付き事後確率は簡単に説明できます。存在はわずか15％です。これは、n = 1000、真の癌症例= 100、検出された癌= 80、および偽陽性= 450のカウントによって最も簡単に示されます。陽性スクリーニングが癌の存在を示す確率は、真陽性/（真陽性+誤検知）または80 /（100 + 450）= 0.145または15％。直感は、真陽性と偽陽性の合計がすべての結果のサブセットを構成するため、真陽性は真陽性と偽陽性の合計に条件付けられるということです。これは、偽陰性と真陰性が計算から除外されるため、条件付きセットがサブセットになるためです。問題を二項尤度と事前ベータの連続ケースにシフトすると、正規化定数は真陽性の項（p =比例）のように積分になります。 ∫10(nx)px(1−p)n−xΓ(a+b)Γ(a)Γ(b)pa−1(1−p)b−1dp∫01(nx)px(1−p)n−xΓ(a+b)Γ(a)Γ(b)pa−1(1−p)b−1dp\int_0^1 {\left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right)p_{}^x{{(1 - p)}^{n - x}}\frac{{\Gamma (a + b)}}{{\Gamma (a)\Gamma (b)}}p_{}^{a - 1}{{(1 - {p_{}})}^{b - 1}}} dp % MathType!MTEF!2!1!+- % feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn % hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr % 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq-Jc9 % vqaqpepm0xbba9pwe9Q8fs0-yqaqpepae9pg0FirpepeKkFr0xfr-x % fr-xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 % qadaWdXaqaamaabmaapaqaauaabeqaceaaaeaapeGaamOBaaWdaeaa % peGaamiEaaaaaiaawIcacaGLPaaacaWGWbWaa0baaSqaaaqaaiaadI % …

8 normalization bayes marginal

タグ付けされた質問 「bayes」

タグ付けされた質問「bayes」