タグ付けされた質問 「hierarchical-bayesian」

階層ベイジアンモデルは、パラメーターに事前分布を指定し、事前分布のパラメーターにハイパー優先順位を指定します


2
「ディープラーニング」とマルチレベル/階層モデリングの違いは何ですか?
「ディープラーニング」は、マルチレベル/階層モデリングの単なる別の用語ですか? 前者よりも後者の方がはるかに精通していますが、主な違いは定義にあるのではなく、アプリケーションドメイン内での使用方法と評価方法にあります。 典型的な「深層学習」アプリケーションのノードの数は多く、一般的な階層形式を使用するように見えますが、マルチレベルモデリングのアプリケーションは、通常、モデル化される生成プロセスを模倣する階層関係を使用します。適用された統計(階層モデリング)ドメインで一般的な階層を使用することは、現象の「誤った」モデルと見なされますが、ドメイン固有の階層をモデル化することは、一般的な深層学習機械を作成する目的を覆すと見なされる場合があります。 これらの2つのことは、実際には2つの異なる名前の2つの異なる方法で使用される同じ機械ですか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
経験的優先順位の問題は何ですか?
文献では、データ自体に依存する事前確率(たとえば、Zellners g-prior)を選択することは、理論的な観点から批判される可能性があるという発言に時々足を踏み入れます。事前確率がデータから独立して選択されていない場合、問題は正確にどこにありますか?

1
Gelmanの8校の例では、なぜ個々の推定値の標準誤差がわかっているのでしょうか?
環境: ゲルマンの8校の例(ベイジアンデータ分析、第3版、Ch 5.5)では、コーチングの効果をテストする8つの学校で8つの並行実験があります。各実験では、コーチングの有効性と関連する標準誤差の推定値が得られます。 著者は、次に、コーチング効果の8つのデータポイントの階層モデルを次のように構築します。 yi∼N(θi,sei)θi∼N(μ,τ)yi∼N(θi,sei)θi∼N(μ,τ) y_i \sim N(\theta_i, se_i) \\ \theta_i \sim N(\mu, \tau) 質問 このモデルでは、が既知であると想定しています。私はこの仮定を理解していません-をモデル化する必要があると感じたら、なぜでも同じことをしないのですか?seiseise_iθiθi\theta_iseiseise_i 8校の例を紹介するルービンの元の論文を確認しましたが、著者も次のように述べています(p 382)。 正常性と既知の標準誤差の仮定は、推定効果とその標準誤差によって研究を要約するときに日常的に行われ、ここでその使用を疑問視することはありません。 まとめると、なぜをモデル化しないのですか?なぜそれを知られているように扱うのですか?seiseise_i

2
二項分布の
この質問は、技術的なフォローアップでこの質問。 Raftery(1988)でNNN提示されたモデルの理解と複製に問題があります:二項Nパラメーターの推論: WinBUGS / OpenBUGS / JAGSの階層ベイズアプローチ。ただし、コードだけではないので、ここでトピックを取り上げる必要があります。 バックグラウンド ましょうの未知との二項分布から、成功回数の集合Nとθ。さらに、Nはパラメーターμのポアソン分布に従うと仮定します(論文で説明)。その後、各xは、私は平均のポアソン分布持っλ = μ θを。λとθの観点から事前確率を指定したい。x=(x1,…,xn)x=(x1,…,xn)x=(x_{1},\ldots,x_{n})NNNθθ\thetaNNNμμ\muxixix_{i}λ=μθλ=μθ\lambda = \mu \thetaλλ\lambdaθθ\theta またはθに関する十分な事前知識がないと仮定して、λとθの両方に情報のない事前分布を割り当てたいと思います。言う、私の事前確率であるλ 〜G A M M A(0.001 、0.001 )およびθ 〜U N I F O R M(0 、1 )。NNNθθ\thetaλλ\lambdaθθ\thetaλ∼Gamma(0.001,0.001)λ∼Gamma(0.001,0.001)\lambda\sim \mathrm{Gamma}(0.001, 0.001)θ∼Uniform(0,1)θ∼Uniform(0,1)\theta\sim \mathrm{Uniform}(0, 1) 著者は不適切な事前分布を使用していますが、WinBUGSは不適切な事前分布を受け入れません。p(N,θ)∝N−1p(N,θ)∝N−1p(N,\theta)\propto N^{-1} 例 紙(226ページ)では、観測されたウォーターバックの次の成功数が用意されています:。母集団のサイズであるNを推定したい。53,57,66,67,7253,57,66,67,7253, 57, 66, 67, 72NNN WinBUGS(@StéphaneLaurentのコメントの後に更新)の例を解決しようとした方法は次のとおりです。 model { # Likelihood for …

2
平均分散に関心がある場合、階層型ベイジアンモデルの分散にはどの事前分布を使用できますか?
広く引用されている論文で、階層モデルの分散パラメーターの事前分布 (Google Scholarでのこれまでの916件の引用)Gelmanは、階層型ベイジアンモデルにおける分散の非有益な事前分布は、均一分布と半t分布であると提案しています。私が正しいことを理解していれば、位置パラメータ(例:平均)が主な関心事である場合、これはうまく機能します。ただし、たとえば、タイミングタスクからの人間の応答データを分析する場合、多くの場合、タイミングの変動性が重要な尺度であるという意味で、分散パラメーターが主な関心事です。そのような場合、分析後に参加者レベルとグループレベルの両方で平均分散の信頼性を取得したいので、たとえば均一な分布を使用して階層的にどのように変動性をモデル化できるかはわかりません。 私の質問は次のとおりです。データの分散が主な関心事である場合、階層型ベイジアンモデルを構築する際にどの分布が推奨されますか? 平均とSDで指定されるようにガンマ分布を再パラメーター化できることを知っています。たとえば、以下の階層モデルは、Kruschkeの本Doing Bayesian Data Analysisからのものです。しかし、Gelmanは彼の記事でガンマ分布に関するいくつかの問題を概説しており、代替案、できればBUGS / JAGSでの作業が難しくない代替案の提案に感謝します。

1
なぜラグ効果を追加すると、ベイジアン階層モデルの平均逸脱が増加するのですか?
背景:現在、さまざまなベイジアン階層モデルを比較する作業を行っています。データは、参加者iと時間jの幸福度の数値的尺度です。約1000人の参加者と、参加者ごとに5〜10個の観察結果があります。y私はjy私jy_{ij}私私ijjj ほとんどの縦断的データセットと同様に、時間的に近い観測値は、離れた観測値よりも大きな相関関係を持つ何らかの自己相関を期待しています。いくつかのことを簡略化すると、基本モデルは次のようになります。 y私はj〜N(μ私はj、σ2)y私j〜N(μ私j、σ2)y_{ij} \sim N(\mu_{ij}, \sigma^2) ここで、遅延のないモデルを比較しています。 μ私はj= β0 iμ私j=β0私\mu_{ij} = \beta_{0i} 遅延モデルの場合: μ私はj= β0 i+ β1(yi (j − 1 )- β0 i)μ私j=β0私+β1(y私(j−1)−β0私)\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i}) ここで者レベルの平均値とされているβ 1はラグパラメータである(すなわち、ラグ効果は、その時点の予測値から前回の時点から観測の偏差の倍数を加算します)。また、y i 0(つまり、最初の観測の前の観測)を推定するためにいくつかのことをしなければなりませんでした。β0 iβ0私\beta_{0i}β1β1\beta_1yi 0y私0y_{i0} 私が得ている結果は次のことを示しています。 遅延パラメーターは、約.18、95%CI [.14、.21]です。すなわち、それは非ゼロです モデルに遅延が含まれると、平均偏差とDICは両方とも数百増加します。 事後予測チェックは、遅延効果を含めることにより、モデルがデータの自己相関をより良く回復できることを示しています したがって、要約すると、ゼロ以外のラグパラメーターと事後予測チェックは、ラグモデルが優れていることを示唆しています。それでも平均逸脱とDICは、遅延のないモデルの方が優れていることを示唆しています。これは私を困惑させます。 私の一般的な経験では、有用なパラメーターを追加する場合、少なくとも平均偏差を減らす必要があります(複雑さのペナルティーの後でもDICは改善されません)。さらに、遅延パラメーターの値をゼロにすると、遅延なしモデルと同じ偏差が得られます。 質問 ラグパラメーターがゼロ以外であり、事後予測チェックが改善される場合でも、なぜラグ効果を追加するとベイジアン階層モデルの平均逸脱が増加するのでしょうか? 最初の考え 私は多くの収束チェックを行いました(たとえば、トレースプロットを見る;チェーンおよびラン全体の逸脱結果の変化を調べる)両方のモデルが後方に収束したようです。 ラグエフェクトを強制的にゼロにするコードチェックを実行しました。これにより、ラグのないモデルの逸脱を回復できました。 また、平均偏差からペナルティーを引いた値を調べました。これにより、期待値で偏差が生じるはずであり、これによりラグモデルが悪化しました。 β0 …

1
冗長な平均パラメータ化によりGibbs MCMCが高速化されるのはなぜですか?
Gelman&Hill(2007)の本(Regression and Multilevel / Hierarchical Modelsを使用したデータ分析)で、著者は、冗長な平均パラメーターを含めることでMCMCを高速化できると主張しています。 与えられた例は、「フライトシミュレーター」(式13.9)のネストされていないモデルです。 yiγjδk∼N(μ+γj[i]+δk[i],σ2y)∼N(0,σ2γ)∼N(0,σ2δ)yi∼N(μ+γj[i]+δk[i],σy2)γj∼N(0,σγ2)δk∼N(0,σδ2) \begin{align} y_i &\sim N(\mu + \gamma_{j[i]} + \delta_{k[i]}, \sigma^2_y) \\ \gamma_j &\sim N(0, \sigma^2_\gamma) \\ \delta_k &\sim N(0, \sigma^2_\delta) \end{align} 彼らは平均パラメータを追加し、再パラメータ化を推奨およびμ δ次のように:μγμγ\mu_\gammaμδμδ\mu_\delta γj∼N(μγ,σ2γ)δk∼N(μδ,σ2δ)γj∼N(μγ,σγ2)δk∼N(μδ,σδ2) \begin{align} \gamma_j \sim N(\mu_\gamma, \sigma^2_\gamma) \\ \delta_k \sim N(\mu_\delta, \sigma^2_\delta) \end{align} 提供される唯一の正当化はそれです(p。420): シミュレーションは、ベクトル(またはδ)全体がゼロから遠くなるような構成でスタックする可能性があります(平均0の分布が割り当てられている場合でも)。最終的に、シミュレーションは正しい分布に収束しますが、待つ必要はありません。γγ\gammaδδ\delta 冗長な平均パラメータはこの問題にどのように役立ちますか? ネストされていないモデルは、主にとδが負に相関しているため、遅いように思えます。(実際、一方が上がると、もう一方は下がる必要があります。合計がデータによって「固定」されるためです)。冗長な平均パラメーターは、γとδの間の相関を減らすのに役立ちますか?γγ\gammaδδ\deltaγγ\gammaδδ\delta

2
Wishart-Wishart事後のパラメーターは何ですか?
精密マトリックスinfering場合ΛΛ\boldsymbol{\Lambda}生成するために使用される正規分布のNNN D次元のベクトルx1,..,xNx1,..,xN\mathbf{x_1},..,\mathbf{x_N} xi∼N(μ,Λ−1)xi∼N(μ,Λ−1)\begin{align} \mathbf{x_i} &\sim \mathcal{N}(\boldsymbol{\mu, \Lambda^{-1}}) \\ \end{align} 私たちは通常、前上ウィシャートを置くΛΛ\boldsymbol{\Lambda}ウィッシャート分布が知られている平均と未知の分散を持つ多変量正規分布のprecissionのためのコンジュゲート前であることから: Λ∼W(υ,Λ0)Λ∼W(υ,Λ0)\begin{align} \mathbf{\Lambda} &\sim \mathcal{W}(\upsilon, \boldsymbol{\Lambda_0}) \\ \end{align} ここである自由度とスケール行列が。モデルに堅牢性と柔軟性を追加するために、ウィシャートのパラメーターよりも優先度を高くしました。たとえば、GörürとRasmussenは次の提案しています: whereυυ\upsilonΛ0Λ0\boldsymbol{\Lambda_0}GΛ01υ−D+1∼W(D,1DΛx)∼G(1,1D)Λ0∼W(D,1DΛx)1υ−D+1∼G(1,1D)\begin{align} \mathbf{\Lambda_0} &\sim \mathcal{W}(D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ \frac{1}{\upsilon-D + 1} &\sim \mathcal{G}(1, \frac{1}{D}) \\ \end{align}GG\mathcal{G}はガンマ分布です。 質問: 後部をサンプリングするためP (Λ 0 | X 、Λ 、υ 、D 、Λ X)α W(Λ | υ 、Λ 0)W(Λ 0 | …

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

5
情報を借りるとはどういう意味ですか?
ベイジアン階層モデルでの情報の借用や情報の共有についてよく話します。これが実際に何を意味するのか、そしてそれがベイジアン階層モデルに固有のものであるのかどうかについて、正直な答えを得ることができないようです。私はある種のアイデアを得ました。階層内のいくつかのレベルは共通のパラメーターを共有しています。しかし、これが「情報の借用」にどのように変換されるのかはわかりません。 「情報を借りる」/「情報を共有する」という言葉は人々が捨てたいと思う流行語ですか? この共有現象を説明する、閉じた形式の後継者の例はありますか? これはベイジアン分析に固有のものですか?一般に、「情報の借用」の例を見ると、それらは単なる混合モデルです。たぶん私は昔ながらの方法でこのモデルを学びました、しかし私はどんな共有も見ません。 私は方法についての哲学的議論を始めることに興味はありません。この用語の使用に興味があります。

2
制限付き最尤法が分散のより良い(バイアスされていない)推定値をもたらすのはなぜですか?
Rのlme4パッケージに関するDoug Batesの理論の論文を読んで、混合モデルの要点をよりよく理解し、制限付き最尤(REML)を使用して分散を推定することについて、より理解したい興味深い結果に出会いました。 REML基準のセクション3.3で、分散推定におけるREMLの使用は、近似線形モデルの残差から分散を推定するときの自由度補正の使用と密接に関連していると述べています。特に、「通常はこの方法で導出されることはありませんが」、「REML基準」の最適化を通じて分散を推定することにより、自由度補正を導出できます(式(28))。REML基準は基本的には尤度だけですが、線形フィットパラメーターは、(バイアスされたサンプル分散を与えるフィット推定に等しく設定する代わりに)マージナライズすることで削除されました。 私は計算を行い、固定効果のみの単純な線形モデルに対して主張された結果を検証しました。私が苦労しているのは解釈です。適合パラメーターが取り除かれた可能性を最適化することによって分散推定値を導き出すことが自然であるいくつかの視点がありますか?確率を事後として考え、フィット変数をランダム変数であるかのように取り除いているかのように、それはベイジアンのような感じです。 それとも正当化は主に数学的なものですか?それは線形の場合に機能しますが、一般化も可能ですか?

1
階層的ガンマポアソンモデルの超優先密度
データ階層モデルでは、 は、実際には値(ガンマ分布の平均と分散がデータ平均と分散にほぼ一致するように(たとえば、Clayton and Kaldor、1987 "Empirical Bayes Estimates of Age-Standardized Relative Risks for Disease Mapping"、Biometrics)。明らかに、これはアドホックソリューションにすぎません。パラメータに対する研究者の信頼を誇張するためです。yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)また、基礎となるデータ生成プロセスが同じであっても、実現されたデータのわずかな変動がガンマ密度に大きな影響を与える可能性があります。 さらに、Bayesian Data Analysis(2nd Ed)で、Gelmanはこの方法は「だらしない」と書いています。この本とこの論文(p。3232から始まる)では、代わりに、ラット腫瘍の例(p。130から始まる)と同様の方法で、いくつかの超優先密度を選択することを提案しています。p(α,β)p(α,β)p(\alpha, \beta) 有限の事後密度を生成する限りどのも許容できることは明らかですが、過去にこの問題で研究者が使用した超優先密度の例は見つかりませんでした。ポアソンガンマモデルを推定するためにハイパープライオリティを採用した本や記事を誰かに教えてもらえれば幸いです。理想的には、が比較的フラットで、ラットの腫瘍の例のようなデータ、またはいくつかの代替仕様とそれぞれに関連するトレードオフを比較する議論によって支配されることに興味があります。p(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

1
LKJcorrが相関行列に適しているのはなぜですか?
私は、(素晴らしい)本の統計的再考(Richard McElreath著)の第13章「Adventures in Covariance」を読んでいます。彼は次の階層モデルを提示しています。 (Rは相関行列です) 著者は、それLKJcorrが相関行列の正則化事前として機能する弱く情報的な事前であると説明しています。しかし、なぜそうなのでしょうか。LKJcorr分布がどのような特性を持っているので、相関行列にとってこれほど優れています。相関行列に実際に使用されている他の良い事前分布はどれですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.