タグ付けされた質問 「prior」

ベイジアン統計では、事前分布は、サンプルが見られる前に利用できる情報または知識(多くの場合、主観的)を確率分布の形で形式化します。大きな分散の分布は、パラメータについてほとんど知られていない場合に使用されますが、より狭い事前分布はより多くの情報を表します。

3
ベイズ計量経済学におけるガンマ分布のパラメータに関する質問
ウィキペディアのガンマ分布に関する記事には、2つの異なるパラメーター化手法がリストされています。そのうちの1つは、ベイズ計量経済学でおよびβ > 0として頻繁に使用され、αは形状パラメーター、βはレートパラメーターです。α > 0α>0\alpha>0β> 0β>0\beta>0αα\alphaββ\beta バツ〜G A M M A(α 、β)。X∼Gamma(α,β).X\sim \mathrm{Gamma}(\alpha,\beta). ゲイリー・コープによって書かれたベイズ計量経済学の教科書では、精度パラメーターあるガンマ分布、次の事前分布を1σ2= h1σ2=h\frac{1}{\sigma^2}=h H 〜G A M M A(S–− 2、ν––)、h∼Gamma(s_−2,ν_),h\sim \mathrm{Gamma}(\underline{s}^{-2},\underline{\nu}), ここで、は平均であり、v _は彼の付録によると自由度です。また、s 2は定義付きの標準エラーですs–− 2s_−2\underline{s}^{-2}ν––ν_\underline{\nu}s2s2s^2 s2= ∑ (y私- β^バツ私)ν。s2=∑(yi−β^xi)ν.s^2=\frac{\sum(y_i-\hat{\beta}x_i)}{\nu}. したがって、平均と分散が異なるため、私にとって、ガンマ分布のこれら2つの定義は完全に異なります。ウィキペディアの定義に従うと、平均はs _ − 2ではなく、なります。α / βα/β\alpha/\betas–− 2s_−2\underline{s}^{-2} 私はここで非常に混乱していますが、誰かが私がここで考えを強化するのを手伝ってくれませんか?

1
非対称の事前知識を持つ多項分布のベイズ推定?
二項分布からいくつかのサンプルを取得するとします。私の以前の知識をモデル化する1つの方法は、パラメーターおよびベータ分布を使用することです。私が理解しているように、これは試験で「頭」を回見たのと同じです。そのため、本格的なベイジアン推論を行うための良い近道は、回の試行で頭を見た後の「頭」の確率の新しい平均としてを使用することです。β α α + β H + ααα\alphaββ\betaαα\alphaα + βα+β\alpha + \beta HのNh + αn + α + βh+αん+α+β\frac{h+\alpha}{n+\alpha+\beta}hhhんんn ここで、3つ以上の状態があると仮定します。そのため、多項分布からいくつかのサンプルを取得します。事前分布としてパラメーターを使用したディリクレ分布を使用するとします。ここでもショートカットとして、これをイベントの確率の事前知識としてと同等に扱うことができます回の試行でイベント回を目撃した場合、私の事後なります。。I α Iαα\alpha私私i IHNIH+αIα私Σのαjα私Σαj\frac{\alpha_i}{\sum \alpha_j}私私i hhhんんn私私ih + α私N + Σ αjh+α私ん+Σαj\frac{h + \alpha_i}{n + \sum \alpha_j} 今二項の場合には、それは「頭」の事前知識が発生していることをうまくいくで時間を裁判起こる「尾」に相当しますで時間をトライアル。論理的には、「尾」よりも「頭」の可能性についてより強い知識を持つことができるとは思いません。ただし、これは2つ以上の結果を伴ってより興味深いものになります。私が6面ダイスと言った場合、50トライアルではサイド1の事前知識は10に相当し、100トライアルではサイド2の事前知識は15 2に相当すると想像できます。α + β β α + βαα\alphaα + βα+β\alpha + \betaββ\betaα + βα+β\alpha + …

1
等しくないクラスのSoftmax回帰バイアスと事前確率
マルチクラス分類問題にSoftmax回帰を使用しています。各クラスの事前確率が同じではありません。 私はロジスティック回帰(2つのクラスの回帰)から、クラスの以前の確率がバイアス()に暗黙的に追加されることを。log(p0/p1)log⁡(p0/p1)\log(p_0/p_1) 通常、私は手動でこの用語をバイアスから削除します。 私の質問は、ソフトマックス回帰バイアスの対応する用語は何ですか? ありがとう。

1
以前の選択でベイズ推定量ではない許容可能な推定量を持つモデル?
私の知る限り、すべてのベイズ推定量は許容されます。(関連質問- 1、2。)私は私の教授が講義中に一度触れて思い出しラフ直感として、少なくとも、逆はすべての許容推定器は、前のいくつかの選択のためのベイズ推定量である、である、としても真である、ということ。彼は「例外がある」または「規則的な条件が必要である」という線に沿って何かを言いました。 質問:誰かが次のことについて何か知っていますか? 逆に必要な規則性条件はどれですか。すべての許容可能な推定量は、保持するための以前のベイズ推定量です。 および/または統計モデルの(良い)反例が存在している(合理的)許容推定器はありませんのためにベイズ推定任意の前の選択? 私の推測では、特にクロムウェルの法則に違反する以前のものが「効果的なモデルサイズ」を人為的に縮小することはよく知られているため、反例はクロムウェルの法則と関係がある可能性があります。したがって、何らかの理由ですべての事前分布がクロムウェルの規則に違反しなければならないモデルがある場合、(妥当な)反例が存在する可能性があると考えられます。 宿題の問題として、私たちは非常に限られたケースでこの逆を証明しなければなりませんでした:クロムウェルのルールに違反していない事前確率と、有限のパラメーター空間。有限パラメータ空間への制限は必須ではなかったと思いますが、コースの前提条件として機能解析がリストされていなかったため、無限次元のベクトル空間で凸解析を行う必要をなくすためだけです。とは言っても、すべての無限次元ベクトル空間が凸分析の一般化が適用されるバナッハ空間であるとは限らないため、反例が存在することを期待することもできますが、それらが存在する場合は、無限のパラメーター空間があることも期待します。 編集:この回答に基づいて、私が持っている別の推測は、すべての事前分布が何らかの理由で無限のベイズリスクを持っているモデル(おそらくコーシーモデル)の反例が存在する可能性があることです。

1
ベイジアンモデルの選択で擬似優先順位を適切に使用する
ベイジアンフレームワークでのモデル比較の1つのアプローチは、ベルヌーイインジケーター変数を使用して、2つのモデルのどちらが「真のモデル」である可能性が高いかを決定します。このようなモデルをフィッティングするためにMCMCベースのツールを適用する場合、チェーン内の混合を改善するために疑似優先順位を使用するのが一般的です。疑似優先順位が役立つ理由についての非常にアクセスしやすい扱いについては、こちらを参照してください。 このトピックに関する独創的な論文で、Carlin&Chib(p。475)は「[疑似優先]の形式は無関係である」と述べています。これは、モデルに基づく事後推論に影響を与えるべきではないことを意味します(ただし、モデルフィッティング中のMCMCミキシングに影響する可能性があります)。ただし、私の考えでは、疑似優先順位の形式は重要です。私は以前、この質問でこれについて尋ねました。@ Xi'anはコメントしました(4番目のコメント):「どのモデルが正しいかについての推論は、疑似優先度に依存しません」。 最近、Martyn Plummerから、Carlin&Chibに対する私の理解と矛盾するコメントを読みました。マーティンは言う:「Carlin-Chibメソッドが機能するためには、モデルがtrueの場合、疑似優先順位が事後と一致する必要があります。」 (私は、プラマーがカーリン&チブと矛盾することを言っているのではなく、カーリン&チブの主張に対する私の理解と矛盾しているということだけです)。 これらすべてから、次の5つの質問が残ります。 ここで何が起こっているのですか?モデルが収束し、事後から有効なサンプルサイズが得られる場合、モデルに含める変数に関する推論は、疑似優先度に依存しますか? そうでない場合、どのように私はこれを私の直感とプラマーのコメントで二乗するのですか?もしそうなら、これをカーリン&チブの論文と西安のコメント(4番目のコメント)でどう平方するか? プラマーのコメントに対する私の理解が正しく、変数が含まれている場合に疑似優先度が事後に対応している必要がある場合...これは、真の事前値に正確に対応する疑似優先度が許可されないことを意味しますか?これは、疑似優先順位が、MCMCでの混合を改善するための便利な手法よりもはるかに優れていることを意味します。 インジケーター変数がいくつかのパラメーター(たとえば、総平均、分散、nグループ効果のある変量効果)を使用してモデルの一部をオンまたはオフにするとどうなりますか?次のうちどれが許容されますか(このアプローチが許容されるという確信度の順に)?記載していないより良いアプローチはありますか? 私。 すべてのパラメーターの完全同時事後分布を近似する疑似優先順位を使用します。 ii。混合が残虐に許容されない場合は、疑似優先度をまったく使用しないでください(つまり、真の事前値と同等の疑似優先度を使用します)。 iii。各パラメーターの1変量事後分布に基づく疑似優先順位を使用しますが、それらがどのように一緒に分布されるかについては心配しないでください。 iv。カーリンとチブの明らかに平易な言葉に従い、MCMCチェーン内で計算上効率的なミキシングを提供する任意の疑似優先順位を使用します。「[疑似優先順位]の形式は無関係です」。 西安@上の最初のコメントに何を意味する私の質問を言っにおける「疑似事前確率は、補正の重要性サンプリングタイプの補正を必要としています。」

1
適切な事前の意味
私はベイズの決定の基本を学ぼうとしているのですが、「適切な事前」というフレーズに出くわしましたが、それが何を意味するのか本当に理解できません。誰か知っていますか?
8 prior 

2
ガウス分布の変分混合の前のパラメーターの選択
パターン認識と機械学習(Bishop、2007)の第10章に従って、多変量ガウス分布のバニラ変分混合を実装しています。 ベイジアン手法では、事前にガウス逆ウィシャートの(ハイパー)パラメーターを指定する必要があります。 α0α0\alpha_0 (事前のディリクレ濃度パラメーター); ν0ν0\nu_0 (逆ウィシャート分布の自由度); β0β0\beta_0 (ガウス逆Wishart分布の疑似観測); m0m0\mathbf{m}_0 (ガウス分布の平均)。 W0W0\mathbf{W}_0 (逆ウィシャートのスケール行列)。 一般的な選択肢は α0=1α0=1\alpha_0 = 1、 ν0=d+1ν0=d+1\nu_0 = d + 1、 β0=1β0=1\beta_0 = 1、 m0=0m0=0\textbf{m}_0 = \textbf{0}、 W0=IdW0=Id\textbf{W}_0 = \textbf{I}_d、 どこ ddd 空間の次元です。 当然のことながら、事後はパラメータの選択に強く依存する可能性があります(特に、 W0W0\textbf{W}_0 コンポーネントの数に大きな影響を与えます。 α0α0\alpha_0)。ためにメートル0m0\textbf{m}_0 そして W0W0\textbf{W}_0、上記の選択は、データがある程度正規化されている場合にのみ意味があります。 一種の経験的なベイズアプローチに従って、私は設定を考えていました メートル0m0\textbf{m}_0 そして W− 10W0−1\textbf{W}_0^{-1} データの経験的平均および経験的共分散行列に等しい(後者の場合、おそらく対角線のみを考慮することができます。また、サンプルの共分散行列を乗算する必要があります ν0ν0\nu_0)。これは賢明でしょうか?パラメータを設定する他の合理的な方法について何か提案はありますか?(完全に階層的なベイズとDPGMMを使用せずに) (ここにも同様の質問がありますが、私の質問に関連する回答はありません。)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.