タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

2
事後分布をすでに知っているのに、なぜ事後分布からサンプリングする必要があるのですか?
私の理解では、ベイズのアプローチを使用してパラメータ値を推定するときは次のとおりです。 事後分布は、事前分布と尤度分布の組み合わせです。 事後分布からサンプルを生成することでこれをシミュレートします(たとえば、Metropolis-Hastingアルゴリズムを使用して値を生成し、それらが事後分布に属する確率の特定のしきい値を超える場合は受け入れます)。 このサンプルを生成したら、それを使用して事後分布とその平均などを近似します。 しかし、私は何かを誤解しているに違いないと感じています。事後分布があり、そこからサンプリングし、そのサンプルを事後分布の近似値として使用しているように聞こえます。しかし、なぜ事後分布があるのか​​というと、なぜそこからサンプリングして近似する必要があるのでしょうか?

3
事後確率は1を超えることができますか?
ベイズの公式では: P(x|a)=P(a|x)P(x)P(a)P(x|a)=P(a|x)P(x)P(a)P(x|a) = \frac{P(a|x) P(x)}{P(a)} 事後確率 1を超えることができますか?P(x|a)P(x|a)P(x|a) たとえば、で、で、と仮定すると可能だと思います。しかし、私はこれについて確信がありません。なぜなら、確率が1よりも大きいとはどういう意味でしょうか?0&lt;P(a)&lt;10&lt;P(a)&lt;10 < P(a) < 1P(a)&lt;P(x)&lt;1P(a)&lt;P(x)&lt;1P(a) < P(x) < 1P(a)/P(x)&lt;P(a|x)&lt;1P(a)/P(x)&lt;P(a|x)&lt;1P(a)/P(x) < P(a|x) < 1

4
対数尤度対尤度を使用するための理論的動機
私は、統計学と確率論における対数尤度(そしておそらくより一般的には対数確率)の遍在性をより深いレベルで理解しようとしています。対数確率はあちこちに現れます。通常、分析(たとえば最大化)のために対数尤度を使用します。フィッシャー情報は対数尤度の2次導関数で定義され、エントロピーは期待される対数確率です。 、Kullback-Lieblerの発散には対数確率が含まれ、予想される逸脱は予想される対数尤度などです。 今、私は多くの実用的で便利な理由に感謝しています。多くの一般的で有用なpdfは、指数ファミリからのものであり、対数変換されると用語がエレガントに簡素化されます。合計は、製品よりも扱いやすい(特に差別化のため)。対数プローブには、直線プローブよりも優れた浮動小数点の利点があります。PDFをログ変換すると、多くの場合、非凹関数が凹関数に変換されます。しかし、ログプロブの理論的な理由/正当化/動機は何ですか? 私の困惑の例として、フィッシャー情報(FI)を考えてみましょう。FIを直観するための通常の説明は、対数尤度の2次導関数が対数尤度の「ピーク」を示していることです。 、ほぼ平坦な対数尤度(低い曲率)は、多くの異なるパラメーター値が(対数尤度に関して)MLEとほぼ同じくらい良いことを意味するため、MLEはより不確実です。 これはすべてうまくいきますが、尤度関数自体の曲率を見つけることはより自然ではありませんか?一見、対数変換の強調はarbitrary意的で間違っているように見えます。確かに、実際の尤度関数の曲率にもっと興味があります。代わりにスコア関数と対数尤度のヘッセ行列を使用するフィッシャーの動機は何ですか? 答えは、最終的に、対数尤度から漸近的に素晴らしい結果が得られるという単純なものですか?たとえば、Cramer-RaoおよびMLE /後方の正常性。または、より深い理由がありますか?

5
ベイジアン統計はメタ分析を時代遅れにしますか?
メタ分析が時代遅れになった場合、ベイジアン統計が最初の研究から最後まで結果的に適用されるのではないかと思っています。 たとえば、異なる時点で行われた20の研究を想定しましょう。最初の研究の推定または分布は、情報価値のない事前分布で行われました。2番目の研究では、事後分布を事前分布として使用します。新しい事後分布は、3番目の研究の前などとして使用されます。 最後に、以前に行われたすべての推定値またはデータを含む推定値があります。メタ分析を行うのは理にかなっていますか? 興味深いことに、この分析の次数を変更すると、最後の事後分布の推定値も変更されると思います。


2
経験的優先順位の問題は何ですか?
文献では、データ自体に依存する事前確率(たとえば、Zellners g-prior)を選択することは、理論的な観点から批判される可能性があるという発言に時々足を踏み入れます。事前確率がデータから独立して選択されていない場合、問題は正確にどこにありますか?

5
ベイジアン思考の背後にある哲学についての良い本は何ですか?
ベイジアン哲学、主観主義者と客観主義者の対比、ベイジアン統計の知識の状態としての確率の見解などについての良い本とは何ですか?たぶんサベージの本? 最初は、Berger(1986)はうまくいくと思っていましたが、私が探しているものではありません。そのような本を検索しても、私が探している結果には至りません。

3
なぜベイジアン統計が統計的プロセス制御でより一般的ではないのですか?
ベイジアン対頻繁な議論の私の理解は、その頻繁な統計です: 客観的である(または主張する) または少なくとも公平 異なる仮定を使用する異なる研究者は、依然として定量的に比較可能な結果を​​得ることができます 一方、ベイジアン統計 事前知識を使用できるため(他の理由の中でも)、「より良い」予測(つまり、予想損失の低減)を行うと主張する 必要な「アドホック」選択が少なくなり、(少なくとも原則として)現実世界で解釈される事前/モデル選択に置き換えられます。 それを考えると、ベイジアン統計はSPCで非常に人気があると予想していました。プロセスの品質を管理しようとする工場の所有者であれば、主に予想される損失を気にします。競合他社よりも多くの/より良い事前知識を持っているので、それを減らすことができれば、さらに良いです。 しかし、SPCについて私が読んだ事実上すべてがしっかりと頻繁に行われているようです(つまり、事前分布なし、すべてのパラメーターのポイント推定、サンプルサイズ、p値などのアドホックな選択) 何故ですか?SPCがペンと紙を使用して行われた1960年代に、頻度統計がより良い選択であった理由がわかります。しかし、それ以来、なぜ誰もが異なる方法を試しなかったのでしょうか?

4
情報量の少ないまたは主観的な事前分布を通常使用する場合、ベイジアンフレームワークの解釈はどのように改善されますか?
それはデータ与えられたパラメータの確率を計算するので、それは多くの場合、(frequentist以上)ベイズフレームワークは解釈の大きな利点を持っていると主張している-の代わりに、のように、頻繁なフレームワーク。ここまでは順調ですね。p (x | θ )p (θ | x )p(θ|x)p(\theta|x)p (x | θ )p(x|θ)p(x|\theta) しかし、それが基づいている全体の方程式: p (θ | x )= p(x | θ )。p (θ )p (x )p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 私には2つの理由で少し疑っています: 多くの論文では、通常、情報量の少ない事前分布(均一分布)が使用され、その後のみが使用されます。ベイジアン事後確率と頻度論者の可能性が同じ分布である場合の解釈?同じ結果が得られます。p (θ | x )=p (x | θ )p(θ|x)=p(x|θ)p(\theta|x) = p(x|\theta) 有益な事前分布を使用すると、異なる結果が得られますが、ベイジアンは主観的な事前分布の影響を受けるため、全体にも主観的な色合いがあります。p (θ | x )p(θ|x)p(\theta|x) …

2
MCMCはいつ一般的になりましたか?
MCMCが一般的になった年(つまり、ベイジアン推論の一般的な方法)を知っている人はいますか?長期にわたって公開されているMCMC(ジャーナル)記事の数へのリンクは、特に役立ちます。
18 bayesian  mcmc  history 

1
多変量正規後部
これは非常に単純な質問ですが、インターネットまたは本のどこにも派生物が見つかりません。1つのベイジアンが多変量正規分布を更新する方法の導出を確認したいと思います。例:想像してみてください P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} {\ bf x_1 ... x_n}のセットを観察した後、\ mathbb {P}({\ bf \ mu | x_1 ... x_n})x1...xnx1...xn{\bf x_1 ... x_n}を計算したいと思います。答えは\ mathbb {P}({\ bf \ mu | x_1 ... x_n})= …

2
誰かがNUTSを英語で説明できますか?
アルゴリズムの私の理解は次のとおりです。 Uターンサンプラー(NUTS)は、ハミルトニアンモンテカルロ法ではありません。これは、それがマルコフ連鎖法ではないことを意味します。したがって、このアルゴリズムはランダムウォーク部分を回避します。 ランダムウォークを行う代わりに、NUTSは長さxのジャンプを行います。アルゴリズムの実行を続けると、各ジャンプは2倍になります。これは、軌道が開始点に戻りたいポイントに到達するまで発生します。 私の質問:Uターンの特別なところは何ですか?軌跡を2倍にすると、最適化されたポイントがスキップされないのはどうしてですか?上記の説明は正しいですか?

1
Gelmanの8校の例では、なぜ個々の推定値の標準誤差がわかっているのでしょうか?
環境: ゲルマンの8校の例(ベイジアンデータ分析、第3版、Ch 5.5)では、コーチングの効果をテストする8つの学校で8つの並行実験があります。各実験では、コーチングの有効性と関連する標準誤差の推定値が得られます。 著者は、次に、コーチング効果の8つのデータポイントの階層モデルを次のように構築します。 yi∼N(θi,sei)θi∼N(μ,τ)yi∼N(θi,sei)θi∼N(μ,τ) y_i \sim N(\theta_i, se_i) \\ \theta_i \sim N(\mu, \tau) 質問 このモデルでは、が既知であると想定しています。私はこの仮定を理解していません-をモデル化する必要があると感じたら、なぜでも同じことをしないのですか?seiseise_iθiθi\theta_iseiseise_i 8校の例を紹介するルービンの元の論文を確認しましたが、著者も次のように述べています(p 382)。 正常性と既知の標準誤差の仮定は、推定効果とその標準誤差によって研究を要約するときに日常的に行われ、ここでその使用を疑問視することはありません。 まとめると、なぜをモデル化しないのですか?なぜそれを知られているように扱うのですか?seiseise_i

2
ベイジアンの観点から見たLASSOとリッジ:チューニングパラメーターはどうですか?
LASSOやリッジなどのペナルティ付き回帰推定量は、特定の事前分布を持つベイジアン推定量に対応すると言われています。(ベイジアン統計については十分に知らないので)チューニングパラメーターが固定されている場合、具体的な対応する事前分布が存在すると推測します。 これで、頻繁に使用する人は、相互検証によって調整パラメーターを最適化することになります。そうすることと同等のベイジアンがありますか、それはまったく使用されますか?または、ベイジアンのアプローチは、データを見る前に調整パラメーターを効果的に修正しますか?(後者は予測パフォーマンスに有害だと思います。)

1
同時L1およびL2正則化(別名エラスティックネット)を使用した線形回帰のベイジアン解釈はありますか?
ペナルティを伴う線形回帰は、係数のガウス事前分布が与えられたMAP推定値を見つけることと同等であることはよく知られています。同様に、l 1ペナルティを使用することは、事前分布としてラプラス分布を使用することと同等です。l2l2l^2l1l1l^1 とl 2の正規化の重み付き組み合わせを使用することは珍しくありません。これは、係数の事前分布に相当すると言うことができます(直感的には、そうでなければならないようです)。この分布に素敵な分析形式(ガウスとラプラシアンの混合物)を与えることができますか?そうでない場合は、なぜですか?l1l1l^1l2l2l^2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.