タグ付けされた質問 「prior」

ベイジアン統計では、事前分布は、サンプルが見られる前に利用できる情報または知識(多くの場合、主観的)を確率分布の形で形式化します。大きな分散の分布は、パラメータについてほとんど知られていない場合に使用されますが、より狭い事前分布はより多くの情報を表します。

2
ラプラスがスパースソリューションを事前に作成するのはなぜですか?
正則化に関する文献を調べていましたが、L2のレギュレーションとガウス事前分布、およびL1とゼロを中心としたラプラスとをリンクする段落がよく見られました。 これらの事前分布がどのように見えるかは知っていますが、たとえば線形モデルの重みに変換する方法はわかりません。L1では、正しく理解できれば、スパースソリューション、つまり、いくつかの重みが正確にゼロにプッシュされることを期待しています。また、L2では小さな重みが得られますが、重みはゼロではありません。 しかし、なぜそれが起こるのでしょうか? さらに情報を提供したり、思考の道筋を明確にする必要がある場合はコメントしてください。

3
不適切な事前はどのようにして適切な事後分布に導くことができますか?
適切な事前配布の場合、 P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta)。 このステップのための通常の正当化は、周辺分布することである、、に対して一定であると事後分布を導出する際に、したがって無視することができます。XXXP(X)P(X)P(X)θθ\theta しかし、不適切な事前分布の場合、事後分布が実際に存在することをどのように知っていますか?この一見円形の議論には何かが欠けているようです。つまり、事後が存在すると仮定した場合、事後を導出する方法のメカニズムは理解しますが、事後が存在する理由についての理論的正当性が欠落しているようです。 PS私はまた、不適切な事前が不適切な事後につながる場合があることを認識しています。

6
事後と事前および尤度とは非常に異なる
事前確率と尤度が互いに非常に異なる場合、事後がどちらにも似ていない状況が発生することがあります。たとえば、正規分布を使用するこの図を参照してください。 これは数学的には正しいですが、私の直感とは一致していないようです-データが強く保持されている信念またはデータと一致しない場合、どちらの範囲もうまくいかないと予想し、フラットな後方範囲全体または恐らく事前確率と尤度周辺の二峰性分布(どちらがより論理的な意味を持っているかはわかりません)。私は確かに、私の以前の信念やデータのいずれにも一致しない範囲の周りのきつい後方を期待しないでしょう。より多くのデータが収集されると、事後確率が尤度に向かって移動することを理解していますが、この状況では直感に反するように思われます。 私の質問は次のとおりです。この状況に対する私の理解はどのように欠陥がありますか(または欠陥がありますか)。後部は、この状況の「正しい」関数です。そうでない場合、他にどのようにモデル化できますか? 完全を期すために、事前確率はとして与えられ、尤度はとして与えられます。N(μ = 6.1 、σ = 0.4 )N(μ = 1.5 、σ= 0.4 )N(μ=1.5、σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)N(μ = 6.1 、σ= 0.4 )N(μ=6.1、σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) 編集:与えられた答えのいくつかを見て、私は非常によく状況を説明していないように感じています。私のポイントは、ベイジアン解析は非直感的な結果をもたらすように思われた特定のモデルで仮定。私の望みは、おそらく悪いモデルの決定について、事後部が何らかの形で「説明」することでした。これについては、回答で詳しく説明します。

4
スケールパラメーターの弱く有益な事前分布
私は、スケールがどうあるべきかについて大まかな考えを持っているが、わからないという言い方をしたいときに、スケール正規分布の事前分布として対数正規分布を使用しました(正規分布、t分布など)。それについて多く。その使用は直感的に理にかなっているので使用しますが、他の人が使用するのを見たことはありません。これに隠れた危険はありますか?

2
LDAハイパーパラメーターの自然な解釈
誰かがLDAハイパーパラメーターの自然な解釈を説明できますか?ALPHAおよびBETAは、それぞれ(文書ごと)トピックおよび(トピックごと)単語分布のディリクレ分布のパラメーターです。しかし、これらのハイパーパラメーターの大きな値と小さな値を選択することの意味を誰かが説明できますか?それは、文書内のトピックの疎さの観点から事前の信念を置き、単語の観点からトピックの相互排他性を置くことを意味しますか? この質問は潜在的なディリクレ配分についてですが、すぐ下のBGReeneによるコメントは線形判別分析に言及しており、紛らわしいことにLDAと省略されています。

2
なぜ弱いと考え分散に先立って?
バックグラウンド 最も一般的に使用される分散の弱い事前分布の1つは、パラメーターの逆ガンマです(Gelman 2006)。α=0.001,β=0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 ただし、この分布の90%CIは約です。[3×1019,∞][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf このことから、は分散が非常に高くなる可能性が低く、分散が1未満になる非常に低い確率であると解釈します。P (σ &lt; 1 | α = 0.001 、β = 0.001 )= 0.006IG(0.001,0.001)IG(0.001,0.001)IG(0.001, 0.001)P(σ&lt; 1 | α = 0.001 、β= 0.001 )= 0.006P(σ&lt;1|α=0.001、β=0.001)=0.006P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006 pigamma(1, 0.001, 0.001) [1] 0.006312353 質問 私は何かを見逃していますか、これは実際に有益な事前ですか? 明確にするために更新しますが、この「情報」を検討していた理由は、分散が非常に強く、これまでに測定されたほとんどすべての分散のスケールをはるかに超えると主張しているためです。 フォローアップ分散推定値の多数のメタアナリシスでは、より合理的な前を提供するだろうか? 参照 …

2
頻度統計の暗黙の事前分布とは何ですか?
ジェインズは、頻繁な活動家が「暗黙の事前」で活動していると主張するという考えを聞いたことがあります。 これらの暗黙の優先順位は何ですか?これは、頻繁なモデルがすべて、ベイジアンモデルの発見を待っている特別なケースであることを意味しますか?

2
経験的優先順位の問題は何ですか?
文献では、データ自体に依存する事前確率(たとえば、Zellners g-prior)を選択することは、理論的な観点から批判される可能性があるという発言に時々足を踏み入れます。事前確率がデータから独立して選択されていない場合、問題は正確にどこにありますか?

4
情報量の少ないまたは主観的な事前分布を通常使用する場合、ベイジアンフレームワークの解釈はどのように改善されますか?
それはデータ与えられたパラメータの確率を計算するので、それは多くの場合、(frequentist以上)ベイズフレームワークは解釈の大きな利点を持っていると主張している-の代わりに、のように、頻繁なフレームワーク。ここまでは順調ですね。p (x | θ )p (θ | x )p(θ|x)p(\theta|x)p (x | θ )p(x|θ)p(x|\theta) しかし、それが基づいている全体の方程式: p (θ | x )= p(x | θ )。p (θ )p (x )p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 私には2つの理由で少し疑っています: 多くの論文では、通常、情報量の少ない事前分布(均一分布)が使用され、その後のみが使用されます。ベイジアン事後確率と頻度論者の可能性が同じ分布である場合の解釈?同じ結果が得られます。p (θ | x )=p (x | θ )p(θ|x)=p(x|θ)p(\theta|x) = p(x|\theta) 有益な事前分布を使用すると、異なる結果が得られますが、ベイジアンは主観的な事前分布の影響を受けるため、全体にも主観的な色合いがあります。p (θ | x )p(θ|x)p(\theta|x) …

1
同時L1およびL2正則化(別名エラスティックネット)を使用した線形回帰のベイジアン解釈はありますか?
ペナルティを伴う線形回帰は、係数のガウス事前分布が与えられたMAP推定値を見つけることと同等であることはよく知られています。同様に、l 1ペナルティを使用することは、事前分布としてラプラス分布を使用することと同等です。l2l2l^2l1l1l^1 とl 2の正規化の重み付き組み合わせを使用することは珍しくありません。これは、係数の事前分布に相当すると言うことができます(直感的には、そうでなければならないようです)。この分布に素敵な分析形式(ガウスとラプラシアンの混合物)を与えることができますか?そうでない場合は、なぜですか?l1l1l^1l2l2l^2

2
ジェフリーズ・プライアーズと分散安定化変換の背後にある関係は何ですか?
私はウィキペディアでジェフリーズ・プリアーについて読んでいた:ジェフリーズ・プリアー。各例の後、分散安定化変換がジェフリーズ・プリアーを均一なプリアーに変える方法を説明していることを見た。 例として、ベルヌーイの場合、確率がである硬貨の場合、ベルヌーイ試行モデルは、パラメータジェフリーズ事前分布が次のようになることを示します。γ∈[0,1]γ∈[0,1]\gamma \in [0,1]γγ\gamma p(γ)∝1γ(1−γ)−−−−−−−√p(γ)∝1γ(1−γ) p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}} そして、これはベータ分布であると述べています。また、場合、のジェフリーズ事前は区間均一であると述べています。α=β=12α=β=12\alpha = \beta = \frac{1}{2}γ=sin2(θ)γ=sin2⁡(θ)\gamma = \sin^2(\theta)θθ\theta[0,π2][0,π2]\left[0, \frac{\pi}{2}\right] 変換は分散安定化変換の変換として認識しています。私を混乱させるのは: なぜ分散安定化変換が均一な事前分布をもたらすのでしょうか? なぜ私たちは前もって統一したいのでしょうか?(不適切である可能性が高いと思われるため) 一般に、なぜ二乗正弦変換が行われ、どのような役割を果たしているのかはよくわかりません。誰にもアイデアはありますか?


2
頻度と事前
Robby McKilliamは、この投稿へのコメントで次のように述べています。 頻度論者の観点から、事前知識をモデルに組み込むことができない理由はないことに注意してください。この意味で、頻繁なビューはより単純であり、モデルといくつかのデータのみがあります。モデルから事前情報を分離する必要はありません また、ここでは、@ jbowmanは、頻度が高い人はコスト/ペナルティ関数による正則化を使用し、ベイジアンはこれを事前に行うことができると言います。 頻度の高い専門家は、正則化が優れていることを認識し、最近では非常に一般的に使用しています。そして、ベイジアン事前分布は正則化として簡単に解釈できます。 だから、私の質問は、ベイジアンが事前分布として指定するものを一般に頻繁に彼らのモデルに組み込むことができますか?正則化を例にとると、コスト/ペナルティ関数は本当にモデルに統合されているのでしょうか、あるいはこれはソリューションを調整する(またユニークにする)純粋に人工的な手段ですか?

4
ベイジアン統計は、事前分布の欠如をどのように処理しますか?
この質問は、私が最近行った2つのやり取りからインスピレーションを受けました。1つはCVで、もう1つはEconomics.seでのやり取りです。 そこに、私は答え掲示していた有名な「封筒パラドックス」(ないとして、あなたを気にする「正しい答え」が、状況の構造に関する特定の仮定から流れる答えとして)。しばらくして、ユーザーが重要なコメントを投稿し、私は彼の主張を理解しようと会話を始めました。彼がベイズの方法を考えていたことは明らかだった、と事前確率の話を保持-そしてそれは私に夜が明けた、と私は私の自己に言った: "待っ分、任意の前について何か言った?ように私が策定しています問題、ここには事前条件はありません。彼らは写真を入力しないだけで、必要はありません。」 最近、CVで統計的独立性の意味についてこの答えを見ました。著者に彼の文章をコメントしました 「...イベントが統計的に独立している場合、(定義により)一方を観察することから他方を知ることはできません。」 露骨に間違っていた。コメント交換で、彼は(彼の言葉)の問題に戻り続けました 「「学習」とは、別のものの観察に基づいて物事に関する私たちの信念を変えることを意味するのではないでしょうか?そうだとすれば、独立は(定義的に)これを排除しませんか? 繰り返しになりますが、彼がベイジアンの考え方をしていること、そして私たちがいくつかの信念(つまり、事前)から始めることを自明であると考えたことは明らかでした。しかし、最初の信念はどのように作成されますか? 科学は現実に適合しなければならないので、私は関係する人間に事前がない状況が存在することに注意します(私は、事前に何もせずに状況に入ります-私は事前があると主張しないでくださいが、私は気づかないで、ここで偽の精神分析をspareしましょう)。 たまたま「情報価値のない事前確率」という言葉を聞いたことがあるので、質問を2つの部分に分けます。ここで、ベイジアン理論に精通しているユーザーは、私が尋ねようとしていることを正確に知っています。 Q1:情報に基づいていない事前情報を取得するのと同等の事前の(厳密な理論的意味での)欠如はありますか? Q1の答えが「はい」(詳細をご記入ください)の場合、ベイズのアプローチは普遍的かつ最初から適用可能であることを意味します。その場所は、当面のケースにとって情報価値のない事前情報です。 しかし、Q1の答えが「いいえ」の場合、Q2は次のようになります。 Q2:Q1の答えが「いいえ」の場合、事前分布がない場合、ベイジアンアプローチは最初から適用できず、非ベイジアン方法で事前に事前分布を作成する必要があります。後でベイジアンアプローチを適用できますか?

2
平均分散に関心がある場合、階層型ベイジアンモデルの分散にはどの事前分布を使用できますか?
広く引用されている論文で、階層モデルの分散パラメーターの事前分布 (Google Scholarでのこれまでの916件の引用)Gelmanは、階層型ベイジアンモデルにおける分散の非有益な事前分布は、均一分布と半t分布であると提案しています。私が正しいことを理解していれば、位置パラメータ(例:平均)が主な関心事である場合、これはうまく機能します。ただし、たとえば、タイミングタスクからの人間の応答データを分析する場合、多くの場合、タイミングの変動性が重要な尺度であるという意味で、分散パラメーターが主な関心事です。そのような場合、分析後に参加者レベルとグループレベルの両方で平均分散の信頼性を取得したいので、たとえば均一な分布を使用して階層的にどのように変動性をモデル化できるかはわかりません。 私の質問は次のとおりです。データの分散が主な関心事である場合、階層型ベイジアンモデルを構築する際にどの分布が推奨されますか? 平均とSDで指定されるようにガンマ分布を再パラメーター化できることを知っています。たとえば、以下の階層モデルは、Kruschkeの本Doing Bayesian Data Analysisからのものです。しかし、Gelmanは彼の記事でガンマ分布に関するいくつかの問題を概説しており、代替案、できればBUGS / JAGSでの作業が難しくない代替案の提案に感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.