タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

2
複数の研究からの情報を組み合わせて、正規分布データの平均と分散を推定する-ベイジアンとメタ分析のアプローチ
私は一連の論文をレビューしました。各論文は、既知のサイズそれぞれのサンプルにおける測定値の観測平均とSDを報告しています。私が設計している新しい研究で同じ測定値の可能性のある分布について可能な限り推測し、その推測にどの程度の不確実性があるかを考えたいと思います。)と仮定してうれしいです。N X 〜N (μ 、σ 2バツバツXnnnX∼N(μ 、σ2X∼N(μ、σ2X \sim N(\mu, \sigma^2 私の最初の考えはメタ分析でしたが、モデルは通常、ポイント推定と対応する信頼区間に焦点を当てています。ただし、の完全な分布について何か言いたいことがあります。この場合、分散について推測することも含まれます。 σ 2バツバツXσ2σ2\sigma^2 私は、事前の知識に照らして、特定の分布のパラメーターの完全なセットを推定するための可能なBayeisanアプローチについて読んでいます。これは一般的に私には理にかなっていますが、ベイジアン分析の経験はゼロです。これは、歯を切るのが簡単で比較的単純な問題のようにも思えます。 1)私の問題を考えると、どのアプローチが最も理にかなっており、なぜですか?メタ分析またはベイジアンアプローチ? 2)ベイジアンアプローチが最適だと思う場合、これを実装する方法を教えていただけますか(できればRで)。 関連する質問 編集: 私は、これを「単純な」ベイジアン様式だと思う方法で解決しようとしています。 上で述べたように、私は推定された平均でなく、事前情報、すなわちを考慮した分散にも興味があります。μμ\muσ2σ2\sigma^2P(μ 、σ2| Y)P(μ、σ2|Y)P(\mu, \sigma^2|Y) 繰り返しになりますが、実際のベイジアンについては何も知りませんが、平均と分散が未知の正規分布の事後分布は、正規逆ガンマ分布の共役を介した閉形式解を持っていることを見つけるのに時間がかかりませんでした。 問題はとして再定式化されます。P(μ 、σ2| Y)= P(μ | σ2、Y)P(σ2| Y)P(μ、σ2|Y)=P(μ|σ2、Y)P(σ2|Y)P(\mu, \sigma^2|Y) = P(\mu|\sigma^2, Y)P(\sigma^2|Y) P(μ | σ2、Y)P(μ|σ2、Y)P(\mu|\sigma^2, Y)は正規分布で推定されます。逆ガンマ分布のP(σ2| Y)P(σ2|Y)P(\sigma^2|Y)。 それはそれのまわりで私の頭を取得するために私にしばらく時間がかかったが、これらのリンクから(1、2、私はR.でこれを行う方法をソートするために、私が思うに、できました) 33個のスタディ/サンプルそれぞれの行と、平均、分散、サンプルサイズの列から構成されるデータフレームから始めました。事前情報として、1行目の最初の調査の平均、分散、サンプルサイズを使用しました。次に、次の調査の情報でこれを更新し、関連するパラメーターを計算し、正規逆ガンマからサンプリングしておよび分布を取得しました。これは、33の研究すべてが含まれるまで繰り返されます。μμ\muσ2σ2\sigma^2 # Loop start values values i <- 2 …

3
事前に共役を持っている:深い特性または数学的な事故?
一部の分布には共役事前分布があり、一部の分布にはありません。この区別は単なる事故ですか?つまり、あなたは数学を行い、それは何らかの方法でうまくいきますが、事実自体を除いて分布について何も重要なことを本当に教えてくれませんか? または、共役の事前の有無は、分布のより深い特性を反映していますか?共役事前分布を持つ分布は、他の興味深い分布を共有し、他の分布ではなく、それらの分布が共役事前分布を持つようにしますか?

1
人々がベイジアン推論に使用する教科書MCMCアルゴリズムに比べてよく知られている改善点は何ですか?
ある問題のためにモンテカルロシミュレーションをコーディングしていて、モデルが十分に単純な場合、非常に基本的な教科書のギブスサンプリングを使用します。Gibbsサンプリングを使用できない場合は、数年前に学んだ教科書Metropolis-Hastingsをコーディングします。私がそれに与えた唯一の考えは、ジャンプ分布またはそのパラメーターを選択することです。 これらの教科書のオプションを改善する何百もの専門的な方法があることは知っていますが、通常、それらを使用/学習することは考えません。通常、すでに非常にうまく機能しているものを少し改善するのはあまりにも多くの努力のように感じます。 しかし、最近、私がやっていることを改善できる新しい一般的な方法がないかと考えていました。それらの方法が発見されてから数十年が経ちました。たぶん私は本当に時代遅れです! メトロポリス・ヘイスティングスに代わる有名な代替品はありますか? 実装が合理的で、 MHと同様に普遍的に適用可能、 そして、何らかの意味でMHの結果を常に改善します(計算パフォーマンス、精度など)。 非常に特殊化されたモデルの非常に特殊化された改善については知っていますが、私が知らない一般的なものがありますか?

1
MCMCベースの回帰モデルの残留診断
最近、MCMCアルゴリズム(実際にはRの関数MCMCglmm)を使用して、ベイジアンフレームワークで回帰混合モデルの適合に着手しました。 推定プロセスの収束を診断する方法を理解したと思います(トレース、gewekeプロット、自己相関、事後分布...)。 ベイジアンフレームワークで私を襲ったことの1つは、それらの診断を行うために多くの努力が注がれているように思えるのに対し、近似モデルの残差のチェックに関してはほとんど行われていないように見えることです。たとえば、MCMCglmmでは、residual.mcmc()関数は存在しますが、実際にはまだ実装されていません(つまり、戻り値:「MCMCglmmオブジェクトにはまだ実装されていない残差」。predict.mcmc()にも同じ話があります)。他のパッケージにも欠けているようで、より一般的には、私が見つけた文献ではほとんど議論されていません(非常に頻繁に議論されているDICは別として)。 誰かが私にいくつかの便利なリファレンス、そして理想的には私が遊んだり修正したりできるRコードを教えてくれますか? どうもありがとう。

2
学習アルゴリズムの選択方法
いくつかのトレーニングデータに基づいてレコードを2つのカテゴリ(true / false)に分類するプログラムを実装する必要があり、どのアルゴリズム/方法論を検討すべきか疑問に思っていました。人工ニューラルネットワーク、遺伝的アルゴリズム、機械学習、ベイジアン最適化など、多くの選択肢があるようで、どこから始めればよいのかわかりませんでした。したがって、私の質問は次のとおり です。問題に使用する学習アルゴリズムをどのように選択すればよいですか。 これが役立つ場合、ここに私が解決する必要がある問題があります。 トレーニングデータ: トレーニングデータは、次のような多くの行で構成されます。 Precursor1, Precursor2, Boolean (true/false) 実行 には、多くの前駆体が与えられます。 その後、 さまざまなアルゴリズムからアルゴリズムAを選択し(またはアルゴリズムを動的に生成し)、これらの前駆体のあらゆる可能な組み合わせに適用し、放出される「レコード」を収集します。「レコード」は、いくつかのキーと値のペアで構成されています*。 いくつかの素晴らしいアルゴリズムを適用し、これらのレコードを2つのカテゴリ(true / false)に分類します。 電車のデータと同じ形式のテーブルを生成します。 Precursor1, Precursor2, Boolean そして、プログラム全体は、正解/不正解の数に基づいて採点されます。 *:「レコード」は次のようになります(これが理にかなっていることを願っています) Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 可能なキーの数は限られています。レコードにはこれらのキーの異なるサブセットが含まれます(一部のレコードにはkey1、key2、key3 ...があり、他のレコードにはkey3、key4 ...などがあります)。 実際に2つの学習が必要です。1つはステップ1です。前駆体のペアなどを調べて、比較のためにレコードを発行するために適用するアルゴリズムを決定するモジュールが必要です。もう1つは、ステップ2です。レコードのコレクションを分析し、それらを2つのカテゴリ(true / false)に分類するモジュールが必要です。 前もって感謝します!

5
測定理論の紹介
ノンパラメトリックベイジアン(および関連する)テクニックについてもっと知りたいです。私の背景はコンピューターサイエンスです。メジャー理論や確率理論のコースを受講したことはありませんが、確率と統計の正式なトレーニングは限られています。誰もが私が始めるためにこれらの概念の読みやすい紹介を推奨できますか?

4
スケールパラメーターの弱く有益な事前分布
私は、スケールがどうあるべきかについて大まかな考えを持っているが、わからないという言い方をしたいときに、スケール正規分布の事前分布として対数正規分布を使用しました(正規分布、t分布など)。それについて多く。その使用は直感的に理にかなっているので使用しますが、他の人が使用するのを見たことはありません。これに隠れた危険はありますか?

2
医療関係者の信頼できる間隔を要約する方法
スタンおよびフロントエンドパッケージを使用するrstanarmかbrms、以前のような混合モデルで行ったように、ベイジアン方式でデータを簡単に分析できますlme。Kruschke-Gelman-Wagenmakers-etcの本や記事のほとんどを私の机に置いていますが、これらは、ベイジアンの怒りのSkyllaとメディカルレビュアーのCharybdisの間で引き裂かれた、医療聴衆のために結果を要約する方法を教えてくれません( 「拡散的なものではなく、重要なものが必要です」)。 例:胃の頻度(1 /分)は3つのグループで測定されます。健康なコントロールが基準です。参加者ごとにいくつかの測定値がありますので、頻繁に使用する次の混合モデルを使用しましたlme。 summary(lme(freq_min~ group, random = ~1|study_id, data = mo)) わずかに編集された結果: Fixed effects: freq_min ~ group Value Std.Error DF t-value p-value (Intercept) 2.712 0.0804 70 33.7 0.0000 groupno_symptoms 0.353 0.1180 27 3.0 0.0058 groupwith_symptoms 0.195 0.1174 27 1.7 0.1086 簡単にするために、2 * stdエラーを95%CIとして使用します。 頻繁な文脈では、私はこれを次のように要約したでしょう。 対照群では、推定頻度は2.7 /分でした(ここにCIを追加することもできますが、絶対CIと差分CIによって生じる混乱のために、これを避けることがあります)。 no_symptomsグループでは、頻度は0.4 /分、CI(0.11〜0.59)/分、p = …

2
なぜ弱いと考え分散に先立って?
バックグラウンド 最も一般的に使用される分散の弱い事前分布の1つは、パラメーターの逆ガンマです(Gelman 2006)。α=0.001,β=0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 ただし、この分布の90%CIは約です。[3×1019,∞][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf このことから、は分散が非常に高くなる可能性が低く、分散が1未満になる非常に低い確率であると解釈します。P (σ &lt; 1 | α = 0.001 、β = 0.001 )= 0.006IG(0.001,0.001)IG(0.001,0.001)IG(0.001, 0.001)P(σ&lt; 1 | α = 0.001 、β= 0.001 )= 0.006P(σ&lt;1|α=0.001、β=0.001)=0.006P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006 pigamma(1, 0.001, 0.001) [1] 0.006312353 質問 私は何かを見逃していますか、これは実際に有益な事前ですか? 明確にするために更新しますが、この「情報」を検討していた理由は、分散が非常に強く、これまでに測定されたほとんどすべての分散のスケールをはるかに超えると主張しているためです。 フォローアップ分散推定値の多数のメタアナリシスでは、より合理的な前を提供するだろうか? 参照 …

1
ベイジアンネットワークからニューラルネットワークへ:多変量回帰を多出力ネットワークに変換する方法
私はベイジアン階層線形モデルを扱っています。ここではそれを説明するネットワークです。 は、スーパーマーケットでの製品の毎日の販売を表します(観測)。YYY は、価格、プロモーション、曜日、天気、休日を含む、回帰変数の既知のマトリックスです。XXX 私は、各製品のバイナリ変数のベクトル一検討最も問題とさせる、各製品、未知の潜在在庫レベルである 1つのを示す欠品や製品の利用できないようにします。 理論的には不明であったとしても、各製品のHMMを使用して推定したため、Xとして知られていると見なされます。適切な形式のためにシェーディングを解除することにしました。SSS111 は、単一の製品の混合効果パラメーターであり、考慮される混合効果は製品価格、プロモーション、在庫切れです。ηη\eta は固定回帰係数のベクトルで、 b 1と b 2は混合効果係数のベクトルです。1つのグループはブランドを示し、もう1つのグループはフレーバーを示します(これは例であり、実際には多くのグループがありますが、ここではわかりやすくするために2つだけ報告しています)。ββ\betab1b1b_1b2b2b_2 、 Σ B 1及び ΣのB 2は、混合効果を超えるハイパーです。ΣηΣη\Sigma_{\eta}Σb1Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} カウントデータがあるので、各製品の売り上げをリグレッサーに条件付きポアソン分布として扱うとしましょう(一部の製品では線形近似が成り立ち、他の製品ではゼロ膨張モデルが優れている場合でも)。そのような場合、私は製品を持っています(これはベイジアンモデル自体に興味がある人のためのものです、それが面白くないまたは些細ではない場合は質問にスキップしてください:)):YYY Ση∼IW(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1∼IW(α1,γ1)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) 、 α 0、γ 0、α 1、γ 1、α 2、γ 2知ら。Σb2∼IW(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2)α0,γ0,α1,γ1,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η∼N(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1∼N(0,Σb1)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2∼N(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) 、 Σはβ知られています。β∼N(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta})ΣβΣβ\Sigma_{\beta} 、λtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtkλtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtk\lambda _{tijk} …

2
ギブスサンプリングと一般的なMH-MCMC
私はギブスのサンプリングとメトロポリス・ヘイスティングスのアルゴリズムについて読んでいるところですが、いくつか質問があります。 私が理解しているように、ギブスサンプリングの場合、大きな多変量問題がある場合、条件付き分布からサンプリングします。つまり、他のすべてを固定したまま1つの変数をサンプリングします。 文書によると、提案されたサンプルは常に Gibbs Samplingで受け入れられます。つまり、提案受け入れ率は常に1です。 。もしそうなら、事後分布を生成するために常にギブスサンプラーを使用しない理由は何ですか?

2
Bayesian Survival Analysis:カプラン・マイヤーの事前記事を書いてください!
時刻イベントを使用した、右打ち切りの観測を検討します。時間の影響を受けやすい個人の数はであり、時間のイベントの数はです。i n i i d it1,t2,…t1,t2,…t_1, t_2, \dotsiiininin_iiiididid_i 生存関数がステップ関数場合、Kaplan-Meierまたは積推定量は自然にMLEとして発生します。尤度は あり、MLEはです。 L (α )= Π I(1 - α I )D I α N I - D I I α I = 1 - D IS(t)=∏i:ti&lt;tαiS(t)=∏i:ti&lt;tαiS(t) = \prod_{i : t_i < t} \alpha_iL(α)=∏i(1−αi)diαni−diiL(α)=∏i(1−αi)diαini−di L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} αˆ私= 1 − d私n私α^i=1−dini\widehat\alpha_i …

3
ju審員の基本統計
私はju審員として召喚されました。私はいくつかのju審裁判への統計の関連性を意識しています。たとえば、「基本レート」の概念とその確率計算への応用は、時々-おそらく常に-関連します。 私の状況にある人は、どの統計トピックを有効に勉強できますか? 私は「ハードサイエンス」の学位を持っているため、統計的な知識は限られていますが、私のスキルは錆びています。私はフルタイムで働いており、ju審員の職務に就く時間はあまりありません。そのため、基本的な概念、単純な問題解決スキル、および関連する問題への適用(およびもちろんこれらの概念と方法の制限)に焦点を当てるのが適切です。

2
複数の代入後に事後平均と信頼できる間隔をプールするにはどうすればよいですか?
複数の補完を使用して、いくつかの完成したデータセットを取得しました。 完成した各データセットでベイズ法を使用して、パラメーターの事後分布を取得しました(ランダム効果)。 このパラメーターの結果を結合/プールするにはどうすればよいですか? より多くのコンテキスト: 私のモデルは、学校に集まっている個々の生徒(生徒ごとに1つの観察)の意味で階層的です。欠損データの予測子の1つとしてMICEデータに複数の代入(R を使用)を行いschool、データ階層を代入に組み込むことを試みました。 完成した各データセットに単純なランダム勾配モデルを適合させました(MCMCglmmRで使用)。結果はバイナリです。 ランダムスロープ分散の事後密度は、次のように見えるという意味で「適切に動作する」ことがわかりました。 このランダム効果のために、各帰属データセットから事後平均と信頼区間をどのように結合/プールできますか? Update1: 私がこれまでに理解していることから、ルービンのルールを事後平均に適用して、多重補完事後平均を与えることができます。これを行うのに問題はありますか?しかし、95%の信頼できる間隔をどのように組み合わせることができるかわかりません。また、代入ごとに実際の事後密度サンプルがあるので、どうにかしてこれらを結合できますか? Update2: コメントでの@cyanの提案に従って、複数の代入からの完全な各データセットから取得した事後分布のサンプルを単純に結合するというアイデアに非常に似ています。ただし、これを行うための理論的な正当性を知りたいです。

6
「完全ベイジアン」対「ベイジアン」
私はベイジアン統計について学んでおり、私はしばしば記事を読みました 「ベイジアンアプローチを採用しています」 または類似のもの。私も気づきましたが、それほど頻繁ではありません。 「完全にベイジアンのアプローチを採用しています」 (私の強調)。実用的または理論的な意味でこれらのアプローチの間に違いはありますか?FWIW、私はMCMCglmmそれが関連する場合にRでパッケージを使用しています。
20 bayesian 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.