タグ付けされた質問 「posterior」

ベイズ統計のデータを条件とするパラメーターの確率分布を指します。

2
MCMCを使用して事後を近似するとき、事後確率を保存して、後でパラメーター値の頻度を使用しないのはなぜですか?
現在、いくつかの常微分方程式(ODE)で定義されたモデルのパラメーターを推定しています。マルコフ連鎖モンテカルロ(MCMC)を使用していくつかのデータを与えられたパラメーターの事後分布を近似することにより、ベイジアンアプローチでこれを試します。 MCMCサンプラーはパラメーター値のチェーンを生成し、特定のパラメーター値の(非正規化)事後確率を使用して、その値をチェーンに追加するか、以前の値を再度追加するかを(確率論的に)決定します。しかし、実際の事後確率を保存する必要はなく、生成された結果のパラメーター値のn次元ヒストグラムであり、パラメーター事後分布の最高密度領域(HDR)のような要約統計量が計算されるのが慣習のようですこのヒストグラムから。少なくとも私は、ベイジアン推論に関するクルシュケスのチュートリアルブックから学んだと思います。 私の質問:サンプリングされたパラメーター値の事後確率をこれらと共に保存し、MCMCチェーンのパラメーター値の頻度からではなく、これらの値から事後分布を概算する方が簡単ではないでしょうか?サンプラーは最初に低確率領域を事後確率で「ふさわしい」よりも頻繁にサンプリングするため、バーンインフェーズの問題は発生しませんが、これらに過度に高い確率値を与える問題はもはやありません。

1
単数ベイジアン回帰-事後は明確に定義されていますか?
SEコミュニティ、次の問題についていくつかの洞察を得たいと思います。単純な線形回帰モデル与えられた場合 等分散誤差項を持つガウス尤度関数の下では、従属変数の条件付き分布はの形式をとります および 前に条件付き(有益でない)共役を割り当てます は。周辺事後分布が多変量tであるのは 標準的な結果ですY | β 、H 〜N (Xのβ 、H - 1つの I )。β 時間β | H 〜N (0 、C I )、H 〜G (S - 2、V )Y= Xβ+ ϵ 、ここで Y∈ RT、X∈ RT× N。Y=Xβ+ϵ , where Y∈RT,X∈RT×N.Y=X\beta+\epsilon\text{ , where } Y\in\mathbb{R}^T,X\in\mathbb{R}^{T \times N}.Y| β、H 〜N(Xβ、h− 1私)。Y|β,h∼N(Xβ,h−1I).Y|\beta,h \sim N(X\beta,h^{-1}I).ββ\betahhh …

1
複数のパラメーターのABC推論に続く事後予測チェック
私はベイジアン統計に比較的新しいので、穏やかにしてください。 マルチパラメータモデルの推論のために、近似ベイズ計算(ABC)を実行しました。現在、推論されたパラメーターに対して事後予測チェックを実行しようとしています。 私が知りたいのは、事後予測チェックの要約統計を生成するために事後からサンプリングするとき、各パラメーターの周辺事後から独立してサンプリングするか、またはパラメーター値を一緒にサンプリングすることになっている(つまり、サンプル受け入れられた要約統計量をもたらした正確なパラメーターの組み合わせから)。 モデルには多くのパラメーター(6を超える)が含まれており、各パラメーターの限界後任に興味があります。この質問が理にかなっているといいのですが。

1
対数正規尤度とジェフリーズの事前確率の事後密度の導出
対数正規分布の尤度関数は次のとおりです。 f(x ; μ 、σ)∝ ∏ん私11σバツ私exp( − (lnバツ私- μ )22つのσ2)f(バツ;μ、σ)αΠ私1ん1σバツ私exp⁡(−(ln⁡バツ私−μ)22σ2)f(x; \mu, \sigma) \propto \prod_{i_1}^n \frac{1}{\sigma x_i} \exp \left ( - \frac{(\ln{x_i} - \mu)^2}{2 \sigma^2} \right ) ジェフリーズの事前は次のとおりです。 p (μ 、σ)∝ 1σ2p(μ、σ)α1σ2p(\mu,\sigma) \propto \frac{1}{\sigma^2} したがって、2つを組み合わせると次のようになります。 f(μ 、σ2| x)= ∏ん私11σバツ私exp( − (lnバツ私- μ )22つのσ2) ⋅ σ− 2f(μ、σ2|バツ)=Π私1ん1σバツ私exp⁡(−(ln⁡バツ私−μ)22σ2)⋅σ−2f(\mu,\sigma^2|x)= \prod_{i_1}^n \frac{1}{\sigma x_i} \exp \left …

1
「後部正中面」のプロット
この質問で部分的に説明したモデルをスタックオーバーフローで再現する一環として、事後分布のプロットを取得します。(空間)モデルは、一部の物件の販売価格を、物件が高価(1)であるか安価(0)であるかに応じて、ベルヌーイ分布として記述します。方程式では: yi∼Bernoulli(pi)yi∼Bernoulli(pi)y_{i} \sim \text{Bernoulli}(p_{i}) pi∼logit−1(b0+b1LivingArea/1000+b2Age+w(s))pi∼logit−1(b0+b1LivingArea/1000+b2Age+w(s))p_{i} \sim \text{logit}^{-1}(b_{0} + b_{1}\text{LivingArea}/1000 + b_{2}\text{Age} + w({\bf{s}})) w(s)∼MVN(0,Σ)w(s)∼MVN(0,Σ)w({\bf{s}}) \sim \text{MVN}({\bf{0}}, {\bf{\Sigma}}) どこ yiyiy_{i} バイナリの結果1または0です。 pipip_{i} 安かったり高かったりする確率です w(s)w(s)w({\bf{s}}) 空間確率変数です。 ss\bf{s} その位置を表します。それぞれのこれすべて i={1,...,70}i={1,...,70}i = \{1, ..., 70\} データセットには70のプロパティがあるためです。 ΣΣ\bf{\Sigma}データポイントの地理的位置に基づく共分散行列です。このモデルに興味がある場合は、ここにデータセットがあります。 取得したいプロットは、次の等高線プロットです。 この図は、「潜伏プロセスの後部正中面のイメージプロットとして説明されています。 w(s)w(s)w({\bf{s}})、バイナリ空間モデル」。本はこれも言います: 図5.8は、潜在の後方平均表面の等高線を重ねた画像プロットを示しています w(s)w(s)w({\bf{s}}) 処理する。 ただし、データセットには70組のポイントしかありません。等高線図を作成するには、推定する必要があると思いますw(s)w(s)w({\bf{s}})70 * 70ポイントで。だから、私の質問です:この後部正中面をどのように生成しますか?これまでのところ、(PyMCを使用して)関連するすべてのパラメーターの事後分布のサンプルがあり、予測できることがわかっています。y∗y∗y^*事後予測分布を使用して新しいポイントで。しかし、私は値を予測する方法がわかりませんw(s)w(s)w({\bf{s}}) 新しい時点で s∗s∗s^*。多分私は間違っていて、プロットは予測ではなく補間によって構築されました。 更新: まず、これはの事後分布の中央値です w(s)w(s)w({\bf{s}})プロパティがある各場所で。これは、MCMCトレースに基づいていますwww。 そして、これは動径基底関数を使用した補間(等高線図付き)です。 (コードに興味がある場合はお知らせください) ご覧のとおり、プロットには大きな違いがあります。いくつかの質問: …

1
変換された相関パラメータの事前回避としてBeta(1,1)を使用しないのはなぜですか?
でベイジアンデータ解析は、第13章、ページ317、第二の完全な段落、モーダルおよび分布近似で、ゲルマンら。書く: 計画が [2変量正規分布の相関パラメーター] の事後モードによって推論を要約する場合、U(-1,1)事前分布を 、これは変換されたパラメーター Beta(2,2)と同等です。事前および結果の密度は境界でゼロであるため、事後モードは-1または1になることはありません。ただし、事前密度は境界付近で線形であるため、可能性と矛盾しません。ρρ\rhoP (ρ )α (1 - ρ )(1 + ρ )p(ρ)α(1−ρ)(1+ρ)p(\rho) \propto (1 - \rho)(1 + \rho)ρ + 12ρ+12\frac{\rho + 1}{2}ρρ\rho 以下は、Beta(2,2)分布のPDFのプロットです。 プロットはドメイン[0,1]について示されていますが、形状は上記の引用で説明した変換の逆を実行することによって得られたドメイン[-1,1]と同じです。これはかなり有益なディストリビューションです!には、約7倍の密度がます。したがって、実際には、可能性が境界から遠いものを指している場合は、可能性と矛盾しますが、からはさらに遠ざかり。以前のベータ(1 +、1 +)を回避するより良い境界はありません。ここで、です。たとえば、下にプロットされているBeta(1.0001、1.0001)を考えてみます。ρ + 12= 0.5ρ+12=0.5\frac{\rho + 1}{2} = 0.5ρ + 12= 0.3 、0.97ρ+12=0.3、0.97\frac{\rho + 1}{2} = 0.3,0.97ρ = 0ρ=0\rho = 0δδ\deltaδδ\deltaδ→ 0δ→0\delta \rightarrow …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
ベータ事前分布は二項尤度の下で事後にどのように影響しますか
2つの質問があります。 質問1:可能性が二項であり、事前分布がベータである場合、事後分布がベータ分布であることをどのように示すことができますか 質問2:以前のパラメーターの選択は事後にどのように影響しますか?それらはすべて同じである必要はありませんか? Rでこれらの質問に答えることは可能ですか?

2
ときの尤度の計算
私はこの事後分布を計算しようとしています: (θ | − )= ∏んi = 1py私私(1 − p私)1 − y私Σすべてθ 、p私| θΠんi = 1py私私(1 − p私)1 − y私(θ|−)=Π私=1んp私y私(1−p私)1−y私Σすべてθ、p私|θΠ私=1んp私y私(1−p私)1−y私 (\theta|-)=\frac{\prod_{i=1}^{n}p_i^{y_i}(1-p_i)^{1-y_i}}{\sum_{\text{all}\,\theta,p_i|\theta}\prod_{i=1}^{n}p_i^{y_i}(1-p_i)^{1-y_i}} 問題は、ベルヌーイ(p私、y私)ベルヌーイ(p私、y私)\text{Bernoulli}(p_i,y_i)確率の束の積である分子が小さすぎることです。(私のんんnは大きく、約1500です)。 したがって、すべての事後値はすべてθθ\theta0と計算されます(私はRで計算を行っています)。 明確にするために、各y私y私y_iは独自のp私p私p_i、これらのはn yのn要素のp私p私p_iベクトルを作成します。各θには、p iの独自のn要素ベクトルがあります。んんnんんn yyyθθ\thetaんんnp私p私p_iます。 編集:再現例の追加(分子用) p <- sample(seq(0,1,by=0.01), 1500, replace=T) y <- sample(c(0,1), 1500, replace=T) dbern(y, p) # 1500-element vector, each element is < 1 prod(dbern(y, p)) …

3
後部が適切であることの確認
ある事後分布の妥当性を検証するように求める教科書に宿題の問題があり、少し問題があります。セットアップは、1つの予測子を持つロジスティック回帰モデルがあり、よりも前に不適切な均一モデルを持っていることです。R2R2\mathbb{R}^2 以下のために具体的には、想定その そう可能性は 問題は、この事後が実際に不適切であると私が思うことです。i=1,…,ki=1,…,ki=1,\ldots,kyi∣α,β,xi∼Binomial(n,invlogit(α+βxi)),yi∣α,β,xi∼Binomial(n,invlogit(α+βxi)), y_i \mid \alpha, \beta,x_i \sim \text{Binomial}(n,\text{invlogit}(\alpha + \beta x_i)), p(y∣α,β,x)=∏i=1k[invlogit(α+βxi)]yi[1−invlogit(α+βxi)]n−yi.p(y∣α,β,x)=∏i=1k[invlogit(α+βxi)]yi[1−invlogit(α+βxi)]n−yi. p(y \mid \alpha, \beta, x ) = \prod_{i=1}^k [\text{invlogit}(\alpha + \beta x_i)]^{y_i}[1-\text{invlogit}(\alpha + \beta x_i)]^{n-y_i}. の特定の状況で、変数の変更およびを使用すると、 アスタリスクのある行では、0 <y <nであると想定していますが、そうでない場合は、同じ結果になります。k=1k=1k=1s1=invlogit(α+βx)s1=invlogit(α+βx)s_1 = \text{invlogit}(\alpha + \beta x)s2=βs2=βs_2 = \beta∬R2p(y∣α,β,x)dαdβ=∬R2[invlogit(α+βx)]y[1−invlogit(α+βx)]n−ydαdβ=∫∞−∞∫10sy−11(1−s1)n−y−1ds1ds2=B(y,n−y)∫∞−∞1ds2=∞.(*)∬R2p(y∣α,β,x)dαdβ=∬R2[invlogit(α+βx)]y[1−invlogit(α+βx)]n−ydαdβ=∫−∞∞∫01s1y−1(1−s1)n−y−1ds1ds2(*)=B(y,n−y)∫−∞∞1ds2=∞.\begin{align*} \iint_{\mathbb{R}^2}p(y \mid \alpha, \beta, x ) \text{d}\alpha \text{d}\beta &= \iint_{\mathbb{R}^2}[\text{invlogit}(\alpha …

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?

2
事後予測分布とMAP推定
トレーニングデータセット、によってパラメーター化された確率モデル、および以前の考えます。新しいデータポイント場合、次を使用してを計算できます。XXXθθ\thetaP(θ)P(θ)P(\theta)x∗x∗x^*P(x∗)P(x∗)P(x^*) 完全なベイジアンアプローチ:事後予測分布P(x∗|X)=∫P(θ|X)P(x∗|θ)dθP(x∗|X)=∫P(θ|X)P(x∗|θ)dθP(x^* | X) = \int P(\theta|X) P(x^*|\theta) d\theta 最大事後推定によってパラメーター化された尤度:、ここでP(x∗|θMAP)P(x∗|θMAP)P(x^* | \theta_{MAP})θMAP=argmaxθP(θ|X)θMAP=argmaxθP(θ|X)\theta_{MAP} = \text{argmax}_\theta P(\theta|X) 完全なベイジアンアプローチは、MAPアプローチよりも常に「優れている」のですか?より正確には、が適切な近似であることを期待しているという意味で、MAPアプローチはベイジアンアプローチの近似ですか?P(x∗|θMAP)P(x∗|θMAP)P(x^* | \theta_{MAP})P(x∗|X)P(x∗|X)P(x^* | X)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.