タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

1
最大事後推定の例
私は最尤推定と最大事後推定について読んでいますが、これまでは、最尤推定でのみ具体的な例に出会いました。私は最大の事後推定のいくつかの抽象的な例を見つけましたが、それに数値を付けた具体的なものはまだありません:S それは非常に圧倒的で、抽象的な変数と関数でのみ機能し、この抽象性に溺れないようにするために、物事を時々現実の世界に関連付けるのは素晴らしいことです。しかし、もちろん、これは私の(そして他の人々の)観察にすぎません:) したがって、数字が記載された最大の事後推定の簡単で具体的な例を誰かに教えてもらえますか?それはとても役に立ちます:) ありがとうございました! 私は最初にこの質問をMSEに投稿しましたが、そこで回答を得ることができませんでした: /math/449386/example-of-maximum-a-posteriori-estimation 私はここにクロスポストで与えられた指示に従いました: http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

1
回帰係数のサンプリング分布
私は以前、未知のパラメータに関して、推定器のための結果を与えるサンプリング分布について学びました。例えば、サンプリング分布のためにβ 0及びβ 1線形回帰モデルにおいてY iが = β O + β 1 X I + ε Iβ^0β^0\hat\beta_0β^1β^1\hat\beta_1Yi=βo+β1Xi+εiYi=βo+β1Xi+εiY_i = \beta_o + \beta_1 X_i + \varepsilon_i と β1〜Nを(β1、σ2β^0∼N(β0, σ2(1n+x¯2Sxx))β^0∼N(β0, σ2(1n+x¯2Sxx)) \hat{\beta}_0 \sim \mathcal N \left(\beta_0,~\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right)\right) β^1∼N(β1, σ2Sxx)β^1∼N(β1, σ2Sxx) \hat{\beta}_1 \sim \mathcal N \left(\beta_1,~\frac{\sigma^2}{S_{xx}}\right) ここで、Sxx=∑ni=1(x2i)−nx¯2Sxx=∑i=1n(xi2)−nx¯2S_{xx} = \sum_{i=1}^n (x_i^2) -n \bar{x}^2 しかし今、私は本で以下を見ました: 通常の方法でモデルを最小二乗法で近似するとします。ベイジアン事後分布を検討し、事前分布を選択して、これが通常の頻度主義サンプリング分布と同等になるようにします。 (β0β1)∼N2[(β^1β^2), σ^2(n∑ni=1xi∑ni=1xi∑ni=1x2i)−1](β0β1)∼N2[(β^1β^2), σ^2(n∑i=1nxi∑i=1nxi∑i=1nxi2)−1] …

1
ネグ二項とジェフリーズ・プリアー
負の二項分布のジェフリーズの事前分布を取得しようとしています。どこが悪いのかわからないので、誰かが指摘してくれると助かります。 さて、状況ように、このです。私は二項と負の二項を用いて得られた事前分布を比較するために午前、(両方の場合に)がある場合試験およびMの成功は。二項式の場合は正しい答えが得られますが、負の二項式の場合は得られません。んnnメートルmm レッツ・コールジェフリーズの事前。そして、πJ(θ )πJ(θ)\pi_J(\theta) πJ(θ )∝ [ I(θ )]1 / 2。πJ(θ)∝[I(θ)]1/2. \pi_J(\theta)\propto [I(\theta)]^{1/2}. 規則性の条件の下で(指数関数的なファミリーを扱っているので満たされます)、 ここで、負の二項のために、Nであり、X成功の総数が上記式(中mは固定されて、N)ではありません。分布-私は思う-は私(θ )= − E(∂2ログL (θ | x )∂θ2)I(θ)=−E(∂2log⁡L(θ|x)∂θ2) I(\theta)=-E\left(\frac{\partial^2 \log L(\theta|x)}{\partial \theta^2}\right) んnnバツxxmmmnnn p(m|θ)∝θm(1−θ)n−mp(m|θ)∝θm(1−θ)n−m p(m|\theta)\propto\theta^m(1-\theta)^{n-m} θθ\thetammmmmm L(θ|n)∝θm(1−θ)n−mlogL(θ|n)=mlogθ+(n−m)log(1−θ)∂logL(θ|n)∂θ=mθ−n−m1−θ∂2logL(θ|n)∂θ2=−mθ2−n−m(1−θ)2L(θ|n)∝θm(1−θ)n−mlog⁡L(θ|n)=mlog⁡θ+(n−m)log⁡(1−θ)∂log⁡L(θ|n)∂θ=mθ−n−m1−θ∂2log⁡L(θ|n)∂θ2=−mθ2−n−m(1−θ)2 L(\theta|n)\propto\theta^m(1-\theta)^{n-m}\\ \log L(\theta|n)=m\log\theta +(n-m)\log (1-\theta)\\ \frac{\partial\log L(\theta|n)}{\partial \theta}=\frac{m}{\theta}-\frac{n-m}{1-\theta}\\ \frac{\partial^2\log L(\theta|n)}{\partial \theta^2}=-\frac{m}{\theta^2}-\frac{n-m}{(1-\theta)^2} I(θ)=−E(∂2logL(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3I(θ)=−E(∂2log⁡L(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3 I(\theta)=-E\left(\frac{\partial^2\log L(\theta|n)}{\partial \theta^2}\right)=\frac{m}{\theta^2}+\frac{E(n)-m}{(1-\theta)^2}=\frac{m}{\theta^2}+\frac{\frac{m\theta}{1-\theta}-m}{(1-\theta)^2}\\ =\frac{m(1-\theta)^2+\frac{m\theta^3}{(1-\theta)}-m\theta^2}{\theta^2(1-\theta)^2}=\frac{m(1-2\theta)+\frac{m\theta^3}{(1-\theta)}}{\theta^2(1-\theta)^2}\\ =\frac{m(1-2\theta)(1-\theta)+m\theta^3}{\theta^2(1-\theta)^3}=\frac{m(1-3\theta+2\theta^2+\theta^3)}{\theta^2(1-\theta)^3}\\ \propto\frac{1-3\theta+2\theta^2+\theta^3}{\theta^2(1-\theta)^3} しかし、これは私に正しい答えを与えません。正解は …

3
ベイジアン分析の尤度と条件付き分布
ベイズの定理は次のように書くことができます。 p(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta} ここで、は事後、は条件付き分布、は事前分布です。f (X | θ )p (θ )p(θ|x)p(θ|x)p(\theta|x)f(X|θ)f(X|θ)f(X|\theta)p(θ)p(θ)p(\theta) または p(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta} ここで、は事後、は尤度関数、は事前確率です。L (θ | x )p (θ )p(θ|x)p(θ|x)p(\theta|x)L(θ|x)L(θ|x)L(\theta|x)p(θ)p(θ)p(\theta) 私の質問は なぜベイズ分析は条件付き分布ではなく尤度関数を使用して行われるのですか? 可能性と条件付き分布の違いは何ですか?可能性は確率分布ではなく、ことがわかっています。L(θ|x)∝f(X|θ)L(θ|x)∝f(X|θ)L(\theta|x) \propto f(X|\theta)


1
ABCモデルの選択
要約統計量の使用に起因するエラーが存在するため、ベイズ因子を使用したABCモデルの選択は推奨されないことが示されています。このホワイトペーパーの結論は、ベイズ因子を近似する一般的な方法(アルゴリズム2)の動作の研究に依存しています。 ベイズ因子がモデル選択を行う唯一の方法ではないことはよく知られています。モデルの予測パフォーマンスなど、関心のある他の機能があります(スコアリングルールなど)。 私の質問は、複雑な尤度のコンテキストで予測パフォーマンスの観点からモデル選択を行うために使用できるいくつかのスコアリングルールまたは他の量を近似するためのアルゴリズム2に類似した方法はありますか?

2
単純なベイジアン分類器でどのようなことが予測できますか?
私は統計学の初心者です(大学のコースを1つだけ受講)、プログラミングの経験があります。 私はRubyのベイジアン分類子ライブラリを使い始めたばかりで、分析するためのアイデアを探しています。 今私はツイートの分類をいじっていますが、何かアイデアはありますか? さらに重要なことに、単純なベイジアン分類に役立つデータのタイプについてどのようにして知ることができますか。 ありがとう。

2
MCMCサンプラーにJeffreysまたはエントロピーベースの事前分布を使用することに対する推奨事項があるのはなぜですか?
上の彼らのwikiページ、スタン状態の開発者: 私たちが好きではないいくつかの原則:不変性、ジェフリーズ、エントロピー 代わりに、正規の配布に関する推奨事項がたくさんあります。これまでのところ、サンプリングに依存しないベイズ法を使用しており、は、二項尤度の良い選択でした。θ∼Beta(α=12,β=12)θ∼Beta(α=12,β=12)\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)
11 bayesian  mcmc  prior  pymc  stan 

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

5
マンモグラフィーの陽性結果に適用されたベイズの定理の解釈
私は、古典的なマンモグラムの例に適用されたベイズの定理の結果に頭を回そうとしています。マンモグラムのねじれは完璧です。 あれは、 がんの発生率:.01.01.01 患者にがんがある場合のマンモグラム陽性の確率:111 患者にがんがない場合のマンモグラム陽性の確率:.01.01.01 ベイズ: P(がん|マンモグラム+)=1 ⋅ 0.01(1 ⋅ 0.01 )+ (0.091 ⋅ 0.99 )1⋅.01(1⋅.01)+(.091⋅.99)\dfrac {1 \cdot .01}{(1 \cdot .01) + (.091 \cdot .99)} = .5025=.5025 = .5025 それで、母集団から無作為に抽出した人がマンモグラムを撮り、肯定的な結果が得られた場合、50%の確率で癌に罹患しているのでしょうか。人口の1%で誤検知が発生する可能性が非常に低い1%の確率が50%の結果を引き起こす方法を直感的に理解できていません。論理的には、小さな偽陽性率の完全に真陽性のマンモグラムの方がはるかに正確だと思います。

1
頻出者のサンプリング分布を回帰設定でベイズ事後として解釈できないのはいつですか?
私の実際の質問は最後の2つの段落にありますが、それらに動機を与えるために: 既知の分散を持つ正規分布に従う確率変数の平均を推定しようとしている場合、平均に前に一様を置くと、尤度関数に比例する事後分布が得られることを読みました。これらの状況では、ベイジアン信頼区間は頻出信頼区間と完全に重なり、ベイジアン最大事後推定値は頻出最大尤度推定値と等しくなります。 単純な線形回帰設定では、 Y=Xβ+ϵ,ϵ∼N(0,σ2)Y=Xβ+ϵ,ϵ∼N(0,σ2)Y = \textbf{X}\beta+\epsilon, \hspace{1cm} \epsilon\sim N(0,\sigma^2) 上に均一な前入れと逆ガンマ前にσ 2後部の小さいパラメータ値の結果とβ M A P frequentistに非常に類似してβ M L E、及び事後配布のための信頼区間をβ | Xは、最尤推定値の周囲の信頼区間に非常に似ています。彼らはまったく同じではありませんので、上の前σ 2ββ\betaσ2σ2\sigma^2β^MAPβ^MAP\hat\beta^{MAP}β^MLEβ^MLE\hat\beta^{MLE}β|Xβ|X\beta|Xσ2σ2\sigma^2事後推定は矛盾の別のソースをご紹介しますMCMCシミュレーションを介して行われますが、周りのベイズの信頼区間あれば影響の少量を発揮し、β M A Pと周りfrequentist信頼区間β M L Eはなります互いにかなり近く、そしてもちろん、サンプルサイズが増加するにつれて、可能性の影響が前のもののそれを支配するように成長するにつれて、それらは収束するはずです。β^MAPβ^MAP\hat\beta^{MAP}β^MLEβ^MLE\hat\beta^{MLE} しかし、これらの同等性が成り立たない退行状況もあると私は読んだ。たとえば、変量効果のある階層回帰、またはロジスティック回帰-これらは、私が理解しているように、「良い」目的または参照の事前分布がない状況です。 だから私の一般的な質問はこれです-私がについて推論したいと仮定しますP(β|X)P(β|X)P(\beta|X)組み込む必要のある事前情報がないため、これらの状況で頻出の最尤推定を続行し、結果の係数推定と標準誤差をベイジアンMAP推定と標準偏差として解釈して、これらを暗黙的に処理できないのはなぜですか?そのような事後につながるだろう事前の明確な定式化を見つけることを試みることなしに「有益ではない」に違いない事前からの「事後」推定は?一般に、回帰分析の領域では、これらの線に沿って(事後のように可能性を処理することで)続行しても問題ないのはいつですか。準尤度法など、尤度ベースではない頻出法についてはどうでしょうか。 答えは、推論の対象が係数点の推定であるか、係数が特定の範囲内にある確率であるか、または予測分布の量であるかによって異なりますか?

2
事後密度が以前の密度と尤度関数の積に比例するのはなぜですか?
ベイズの定理によれば、です。しかし、私の計量経済テキストによれば、それはであると述べています。なぜこんな感じ?が無視される理由がわかりません。P (θ | y )∝ P (y | θ )P (θ )P (y )P(y| θ)P(θ )= P(θ | y)P(y)P(y|θ)P(θ)=P(θ|y)P(y)P(y|\theta)P(\theta) = P(\theta|y)P(y)P(θ | y)∝ P(y| θ)P(θ )P(θ|y)∝P(y|θ)P(θ)P(\theta|y) \propto P(y|\theta)P(\theta)P(y)P(y)P(y)

1
なぜ人々は「証拠の重み」という用語を使用し、それが「個別の相互情報」とどのように異なるのですか?
ここで、「証拠の重み」(WOE)は、公開された科学的および政策立案の文献における一般的な用語であり、以下によって定義されるリスク評価のコンテキストで最もよく見られます。 w (e :h )= ログp (e | h )p (e | h¯¯¯)w(e:h)=log⁡p(e|h)p(e|h¯)w(e : h) = \log\frac{p(e|h)}{p(e|\overline{h})} ここで、は証拠、hは仮説です。eeehhh 今、私はPMI(点ごとの相互情報)との主な違いは何であるか知りたいです p m i (e 、h )= ログp (e 、h )p (e )∗ p (h )pmi(e,h)=log⁡p(e,h)p(e)∗p(h)pmi(e,h)=\log\frac{p(e,h)}{p(e)*p(h)}

2
最尤パラメーターは事後分布から逸脱しています
推定したいいくつかのモデルパラメーター与えられた場合、データ確率に対する尤度関数があります。パラメータの平坦な事前分布を仮定すると、尤度は事後確率に比例します。MCMCメソッドを使用して、この確率をサンプリングします。L(d|θ)L(d|θ)\mathcal{L}(d | \theta)dddθ∈RNθ∈RN\theta \in \mathbf{R}^N 結果の収束チェーンを見ると、最尤パラメーターが事後分布と一致していないことがわかります。例えば、パラメータの1つに取り残さ事後確率分布があるかもしれないの値が、最尤点である、MCMCサンプラーが通過するほぼ最大値です。θ0∼N(μ=0,σ2=1)θ0∼N(μ=0,σ2=1)\theta_0 \sim N(\mu=0, \sigma^2=1)θ0θ0\theta_0θML0≈4θ0ML≈4\theta_0^{ML} \approx 4θ0θ0\theta_0 これは実例であり、実際の結果ではありません。実際の分布ははるかに複雑ですが、一部のMLパラメーターは、それぞれの事後分布に同様にありそうもないp値を持っています。一部のパラメーターが制限されていることに注意してください(例:); 境界内では、事前分布は常に均一です。0≤θ1≤10≤θ1≤10 \leq \theta_1 \leq 1 私の質問は: そのような逸脱自体が問題なのでしょうか?明らかに、MLパラメーターが周辺化された事後分布のそれぞれの最大値と正確に一致することは期待していませんが、直感的には、それらが尾の奥にあるはずがないように感じます。この偏差は結果を自動的に無効にしますか? これが必ずしも問題であるかどうかに関係なく、データ分析のある段階で特定の病理の兆候である可能性がありますか?たとえば、このような偏差が不適切に収束したチェーン、不適切なモデル、またはパラメータの過度に厳しい境界によって引き起こされる可能性があるかどうかについて、一般的な説明をすることはできますか?

3
ベイジアン事後確率の均一性事前確率の平均
場合p∼p∼p \sim制服(0,1)(0,1)(0,1)、及びX∼X∼X \simビン(n,p)(n,p)(n, p)、その後の事後平均pppで与えられるX+1n+2X+1n+2\frac{X+1}{n+2}。 この推定者の一般的な名前はありますか?私はそれが多くの人々の問題を解決することを発見しました、そして私は人々に参照を示すことができるようにしたいのですが、それに適切な名前を見つけることができませんでした。 統計101の本では「+ 1 / + 2推定量」のように呼ばれていたことを漠然と覚えていますが、これはあまり検索可能な用語ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.