タグ付けされた質問 「conjugate-prior」

可能性と組み合わせると、結果の事後は同じ分布のファミリーに由来するようなベイズ統計の事前分布。




3
事前に共役を持っている:深い特性または数学的な事故?
一部の分布には共役事前分布があり、一部の分布にはありません。この区別は単なる事故ですか?つまり、あなたは数学を行い、それは何らかの方法でうまくいきますが、事実自体を除いて分布について何も重要なことを本当に教えてくれませんか? または、共役の事前の有無は、分布のより深い特性を反映していますか?共役事前分布を持つ分布は、他の興味深い分布を共有し、他の分布ではなく、それらの分布が共役事前分布を持つようにしますか?

3
新しいデータによるベイジアン更新
n個のデータポイントを観察した後、事前のN〜(a、b)で事後を計算するにはどうすればよいですか?データポイントのサンプル平均と分散を計算し、事後と事前を結合する何らかの計算を行う必要があると思いますが、結合式がどのように見えるかはよくわかりません。


2
共役事前の正当化?
使いやすさに加えて、共役優先順位を使用するための認識論的正当化(数学、哲学、ヒューリスティックなど)はありますか?それとも、それは通常、それが通常十分な近似であり、物事をはるかに簡単にするということだけですか?

2
Wishart-Wishart事後のパラメーターは何ですか?
精密マトリックスinfering場合ΛΛ\boldsymbol{\Lambda}生成するために使用される正規分布のNNN D次元のベクトルx1,..,xNx1,..,xN\mathbf{x_1},..,\mathbf{x_N} xi∼N(μ,Λ−1)xi∼N(μ,Λ−1)\begin{align} \mathbf{x_i} &\sim \mathcal{N}(\boldsymbol{\mu, \Lambda^{-1}}) \\ \end{align} 私たちは通常、前上ウィシャートを置くΛΛ\boldsymbol{\Lambda}ウィッシャート分布が知られている平均と未知の分散を持つ多変量正規分布のprecissionのためのコンジュゲート前であることから: Λ∼W(υ,Λ0)Λ∼W(υ,Λ0)\begin{align} \mathbf{\Lambda} &\sim \mathcal{W}(\upsilon, \boldsymbol{\Lambda_0}) \\ \end{align} ここである自由度とスケール行列が。モデルに堅牢性と柔軟性を追加するために、ウィシャートのパラメーターよりも優先度を高くしました。たとえば、GörürとRasmussenは次の提案しています: whereυυ\upsilonΛ0Λ0\boldsymbol{\Lambda_0}GΛ01υ−D+1∼W(D,1DΛx)∼G(1,1D)Λ0∼W(D,1DΛx)1υ−D+1∼G(1,1D)\begin{align} \mathbf{\Lambda_0} &\sim \mathcal{W}(D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ \frac{1}{\upsilon-D + 1} &\sim \mathcal{G}(1, \frac{1}{D}) \\ \end{align}GG\mathcal{G}はガンマ分布です。 質問: 後部をサンプリングするためP (Λ 0 | X 、Λ 、υ 、D 、Λ X)α W(Λ | υ 、Λ 0)W(Λ 0 | …

2
ベイズ推定量は選択バイアスの影響を受けない
ベイズ推定量は選択バイアスの影響を受けませんか? 高次元での推定について論じているほとんどの論文、例えば全ゲノム配列データは、しばしば選択バイアスの問題を提起します。選択バイアスは、何千もの潜在的な予測子があるにもかかわらず、選択されるのはごくわずかであり、選択されたいくつかに対して推論が行われるという事実から生じます。したがって、プロセスは2つのステップで行われます。(1)予測子のサブセットを選択します。(2)選択セットに対して推論を実行します。たとえば、オッズ比を推定します。Dawidは、1994年のパラドックスペーパーで、不偏推定量とベイズ推定量に焦点を当てました。彼は問題を単純化して、治療効果かもしれない最大の効果を選択する。 次に、公平な推定者は選択バイアスの影響を受けると彼は言います。彼は例を使用しました: 次にZi∼N(δi,1),i=1,…,NZi∼N(δi,1),i=1,…,N Z_i\sim N(\delta_i,1),\quad i=1,\ldots,N ZiZiZ_iはに対してバイアスされ。ましょう 、推定 (但し付勢されているが確かに)\ max \ {\ delta_1、\ delta_2、\ ldots、\ delta_N \}の場合。このステートメントは、ジェンセンの不等式で簡単に証明できます。私たちは知っていたならばそのため、私は_ {\最大}、最大のインデックス\ delta_iは、我々だけで使用するZ_を{I _ {\最大}}公平であるその推定量として。しかし、これがわからないため、代わりに(積極的に)バイアスされる\ gamma_1(\ mathbf {Z})を使用します。δiδi\delta_iZ=(Z1,Z2,…,ZN)TZ=(Z1,Z2,…,ZN)T\mathbf{Z}=(Z_1,Z_2,\ldots,Z_N)^Tγ1(Z)=max{Z1,Z2,…,ZN}γ1(Z)=max{Z1,Z2,…,ZN} \gamma_1(\mathbf{Z})=\max\{Z_1,Z_2,\ldots,Z_N\} max{δ1,δ2,…,δN}max{δ1,δ2,…,δN}\max\{\delta_1,\delta_2,\ldots,\delta_N\}imaximaxi_{\max}δiδi\delta_iZimaxZimaxZ_{i_{\max}}γ1(Z)γ1(Z)\gamma_1(\mathbf{Z}) しかし、Dawid、Efron、および他の著者の懸念事項は、ベイズの推定者は選択バイアスの影響を受けないということです。を優先する場合、たとえば、ベイズ推定量はによって与えられ ここで、、は標準ガウスです。δiδi\delta_iδi∼g(.)δi∼g(.)\delta_i\sim g(.)δiδi\delta_iE{δi∣Zi}=zi+ddzim(zi)E{δi∣Zi}=zi+ddzim(zi) \text{E}\{\delta_i\mid Z_i\}=z_i+\frac{d}{dz_i}m(z_i) m(zi)=∫φ(zi−δi)g(δi)dδim(zi)=∫φ(zi−δi)g(δi)dδim(z_i)=\int \varphi(z_i-\delta_i)g(\delta_i)d\delta_iφ(.)φ(.)\varphi(.) 私たちは、新しい推定定義する場合はとして 何でもあなたが推定するのに選択しとは、選択がに基づいていた場合 と同じなります。これは、がで単調であるです。我々はまた、知っている shrinkes用語とゼロに向かって、δimaxδimax\delta_{i_{\max}}γ2(Z)=max{E{δ1∣Z1},E{δ2∣Z2},…,E{δN∣ZN}},γ2(Z)=max{E{δ1∣Z1},E{δ2∣Z2},…,E{δN∣ZN}}, \gamma_2(\mathbf{Z})=\max\{\text{E}\{\delta_1\mid Z_1\},\text{E}\{\delta_2\mid Z_2\},\ldots,\text{E}\{\delta_N\mid Z_N\}\}, iiiδimaxδimax\delta_{i_{\max}}γ1(Z)γ1(Z)\gamma_1(\mathbf{Z})iiiγ2(Z)γ2(Z)\gamma_2(\mathbf{Z})γ2(Z)γ2(Z)\gamma_2(\mathbf{Z})ZiZiZ_iE{δi∣Zi}E{δi∣Zi}\text{E}\{\delta_i\mid Z_i\}ZiZiZ_iddzim(zi)ddzim(zi)\frac{d}{dz_i}m(z_i)これにより、の正のバイアスの一部が減少し。しかし、ベイズ推定量は選択バイアスの影響を受けないと結論付けるにはどうすればよいでしょうか。本当にわかりません。ZiZiZ_i

3
周波数についてのベイズ推定における事前のベータ共役の理解
以下は、ボルスタッドの「ベイジアン統計入門」からの抜粋です。 そこにいるすべての専門家にとって、これは些細なことかもしれませんが、ある値の事後確率を計算するために統合を行う必要がないと著者が結論付けている方法はわかりません。比例であり、すべての項がどこから来たのか(尤度x事前)である2番目の式を理解しています。さらに、分子だけが直接比例しているので、分母を気にする必要はありません。しかし、3番目の方程式に移って、ベイズ規則の分母を忘れていませんか?どこに行ったの?そして、ガンマ関数によって計算された値、それは定数ではありませんか?定数はベイズの定理で相殺されませんか?ππ\pi

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

3
ガウス尤度+どの事前=ガウス限界か?
サンプルについてガウス尤度を与え様とのパラメータ空間とされて、平均ベクトルと共分散行列の任意のパラメーター化。yyyp(y|θ)=N(y;μ(θ),Σ(θ))p(y|θ)=N(y;μ(θ),Σ(θ))p(y|\theta) = \mathcal{N}(y;\mu(\theta),\Sigma(\theta))ΘΘ\Thetaμ(θ)μ(θ)\mu(\theta)Σ(θ)Σ(θ)\Sigma(\theta) 限界尤度なるように、事前密度と平均ベクトルおよび共分散行列パラメーター化を指定することは可能ですか?はガウス尤度ですか?p(θ)p(θ)p(\theta)μ(θ)μ(θ)\mu(\theta)Σ(θ)Σ(θ)\Sigma(\theta)p(y)=∫θ∈ΘN(y;μ(θ),Σ(θ))p(θ)dθp(y)=∫θ∈ΘN(y;μ(θ),Σ(θ))p(θ)dθp(y)=\int_{\theta\in\Theta}N(y;\mu(\theta),\Sigma(\theta))p(\theta)d\theta 共分散がわかっている自明な解、つまりを除外すると思います。ここで、は任意の固定共分散行列ですが、これは不可能です。Σ(θ)=ΣΣ(θ)=Σ\Sigma(\theta)=\SigmaΣΣ\Sigma 特別な場合および、つまりは1次元であり、、ここでは、表示できる均一密度を示します: μ(σ2)=μμ(σ2)=μ\mu(\sigma^2)=\muΣ(σ2)=σ2Σ(σ2)=σ2\Sigma(\sigma^2)=\sigma^2yyyp(σ2)=U(σ2;a,b)p(σ2)=U(σ2;a,b)p(\sigma^2)=\mathcal{U}(\sigma^2;a,b)U(σ2;a,b)U(σ2;a,b)\mathcal{U}(\sigma^2;a,b)p(y)=∫∞0N(y;μ,σ2)U(σ2;a,b)dσ2=1b−a∫baN(y;μ,σ2)not a Gaussian densityp(y)=∫0∞N(y;μ,σ2)U(σ2;a,b)dσ2=1b−a∫abN(y;μ,σ2)⏟not a Gaussian density\begin{align} p(y)&=\int_0^\infty \mathcal{N}(y;\mu,\sigma^2)\mathcal{U}(\sigma^2;a,b)d\sigma^2 \\ &= \frac{1}{b-a} \underbrace{\int_a^b \mathcal{N}(y;\mu,\sigma^2)}_\text{not a Gaussian density} \end{align} 受け入れられた回答には、公式または非公式の証明またはそれへのポインタが含まれています。


2
なぜ共役事前分布の混合物が重要なのですか?
共役事前分布の混合について質問があります。ベイジアンを学習しているときに、共役事前分布の混合を数回学び、言いました。この定理がなぜそれほど重要であるのか、ベイジアン分析を行うときにどのようにそれを適用するのでしょうか。 具体的には、Diaconis and Ylivisaker 1985の定理の1つが次のように定理を示しています。 指数ファミリーからのサンプリングモデル与えられると、事前分布は共役事前分布の有限混合によって近似できます。p (y|θ )p(y|θ)p(y|\theta) より具体的には、事前の与えられると、事後を導出できます:p (θ)= ∫p (θ | ω )p ( ω )dωp(θ)=∫p(θ|ω)p(ω)dωp(\theta)=\int p(\theta|\omega)p(\omega)d\omega p (θ | Y)α ∫p (Y| θ)p(θ | ω)p(ω)dω α ∫p (Y| θ)p(θ | ω)p (Y| ω)p (Y| ω)p(ω)dω∝∫p (θ |Y、ω )p (Y| ω)p(ω)dωp(θ|Y)α∫p(Y|θ)p(θ|ω)p(ω)dωα∫p(Y|θ)p(θ|ω)p(Y|ω)p(Y|ω)p(ω)dωα∫p(θ|Y、ω)p(Y|ω)p(ω)dωp(\theta|Y)\propto\int p(Y|\theta)p(\theta|\omega)p(\omega)d\omega\propto\int \frac{p(Y|\theta)p(\theta|\omega)}{p(Y|\omega)}p(Y|\omega)p(\omega)d\omega\propto \int p(\theta|Y, \omega)p(Y|\omega)p(\omega)d\omega したがって、 p …

1
対数正規尤度とジェフリーズの事前確率の事後密度の導出
対数正規分布の尤度関数は次のとおりです。 f(x ; μ 、σ)∝ ∏ん私11σバツ私exp( − (lnバツ私- μ )22つのσ2)f(バツ;μ、σ)αΠ私1ん1σバツ私exp⁡(−(ln⁡バツ私−μ)22σ2)f(x; \mu, \sigma) \propto \prod_{i_1}^n \frac{1}{\sigma x_i} \exp \left ( - \frac{(\ln{x_i} - \mu)^2}{2 \sigma^2} \right ) ジェフリーズの事前は次のとおりです。 p (μ 、σ)∝ 1σ2p(μ、σ)α1σ2p(\mu,\sigma) \propto \frac{1}{\sigma^2} したがって、2つを組み合わせると次のようになります。 f(μ 、σ2| x)= ∏ん私11σバツ私exp( − (lnバツ私- μ )22つのσ2) ⋅ σ− 2f(μ、σ2|バツ)=Π私1ん1σバツ私exp⁡(−(ln⁡バツ私−μ)22σ2)⋅σ−2f(\mu,\sigma^2|x)= \prod_{i_1}^n \frac{1}{\sigma x_i} \exp \left …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.