タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

2
ベイジアン充足度は頻度論的充足度とどのように関連していますか?
頻出主義の観点における十分な統計の最も単純な定義は、ここウィキペディアで与えられています。しかし、私は最近、定義を持つベイジアンの本に出くわしました。リンクには両方とも同等であると記載されていますが、方法はわかりません。また、同じページの「その他のタイプの充足感」セクションで、両方の定義が無限次元空間では同等ではないと述べられています...P(θ|x,t)=P(θ|t)P(θ|x,t)=P(θ|t)P(\theta|x,t)=P(\theta|t) また、予測的十分性は古典的十分性とどのように関連していますか?

2
ベイジアンがテストセットを必要としないのは本当ですか?
私は最近、Eric J. Maによるこの講演を見て、彼のブログエントリをチェックしました。彼はRadford Nealを引用しています。ベイジアンモデルはオーバーフィットしない(しかし、オーバーフィットすることができる)こと、およびそれらを使用する場合、検証するためのテストセット(私は引用符が検証セットを使用してパラメータを調整することについて話しているようです)。正直に言って、私には説得力がなく、本にアクセスすることもできないので、そのような声明に対して、または反対して、より詳細で厳密な議論をしてもらえますか? ちなみに、その間、エリック・マーは私に同じトピックに関するこの議論を指摘しました。

3
入力が条件付きで独立している場合、超平面はデータを最適に分類します-なぜですか?
ディープラーニングと情報ボトルネック原理と呼ばれる論文では、著者はセクションII A)で次のように述べています。 単一ニューロンは、入力空間超平面のみを実装できるため、線形的に分離可能な入力のみを分類します。入力が条件に依存しない場合、超平面はデータを最適に分類できます。u = w h + bu=wh+bu = wh+b これを示すために、彼らは以下を導き出します。ベイズの定理を使用すると、次のようになります。 (1)p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} ここで、、入力されるYはクラスであり、Y '(私は、仮定予測クラスであり、Yは'定義されていません)。続けて、彼らは次のように述べています:xxxyyyy′y′y'y′y′y' (2)p(x|y)p(x|y′)=∏Nj=1[p(xj|y)p(xj|y′)]np(xj)p(x|y)p(x|y′)=∏j=1N[p(xj|y)p(xj|y′)]np(xj)\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)} ここで、は入力次元で、nはわかりません(ここでも、両方とも未定義です)。シグモイドアクティベーション関数σ (u )= 1のシグモイドニューロンを考えるNNNnnnσ(u)=11+exp(−u)σ(u)=11+exp(−u)\sigma(u) = \frac{1}{1+exp(-u)}uuuwj=logp(xj|y)p(xj|y′)wj=logp(xj|y)p(xj|y′)w_j = log\frac{p(x_j|y)}{p(x_j|y')}b=logp(y)p(y′)b=logp(y)p(y′)b=log\frac{p(y)}{p(y')}hj=np(xj)hj=np(xj)h_j=np(x_j) w,b,hw,b,hw,b,h (1)ベイズの定理を使用してどのように導出されますか? nnn hj=np(xj)hj=np(xj)h_j=np(x_j) yyyy′y′y'

2
ML推定器の不変性プロパティは、ベイジアンの観点から無意味ですか?
CasellaとBergerは、ML推定量の不変性を次のように述べています。 しかし、彼らは「可能性」を完全にアドホックで無意味な方法で定義しているように思えます。ηη\eta 私は、単純なケースwheterに確率論の基本的なルールを適用した場合、私の代わりに、次を得る: L (η | X )= P (X | θ 2 = η )= P (X | θ = - √η=τ(θ)=θ2η=τ(θ)=θ2\eta=\tau(\theta)=\theta^2 今、ベイズの定理を適用すること、およびその後、事実AとBは、我々は和ルール適用できることを相互に排他的でとてもある: P(X|A∨B)=P(xと) P (A ∨ B | X )L(η|x)=p(x|θ2=η)=p(x|θ=−η–√∨θ=η–√)=:p(x|A∨B)L(η|x)=p(x|θ2=η)=p(x|θ=−η∨θ=η)=:p(x|A∨B)L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)AAABBBp(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)} p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)\frac {p(A)\frac …

1
信頼区間が正しいのに、なぜこの多項式回帰ではベイジアンの信頼できる区間が偏っているのですか?
以下のようにデータをシミュレーションした下のプロットを考えてみます。1になる真の確率が黒い線で示されているバイナリの結果を調べます。共変量xとp (y o b s = 1 | x )の間の関数関係は、ロジスティックリンクを持つ3次多項式です(したがって、双方向で非線形です)。yobsyobsy_{obs}xxxp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 緑の線はGLMロジスティック回帰近似で、は3次多項式として導入されています。破線の緑の線は、予測の周りの95%信頼区間であるP (Y O B S = 1 | X 、β)ここで、βフィット回帰係数。私はこれを使用しました。xxxp(yobs=1|x,β^)p(yobs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm 同様に、プルプルラインは、均一な事前分布を使用したベイジアンロジスティック回帰モデルのについて95%信頼できる区間をもつ事後の平均です。私はこのために機能付きのパッケージを使用しました(設定により、事前に情報のない均一な情報が提供されます)。p(yobs=1|x,β)p(yobs=1|x,β)p(y_{obs}=1 | x, \beta)MCMCpackMCMClogitB0=0 赤い点は、のデータセット内の観測を示し、黒い点はy o b s = 0 の観測です。分類/離散分析では一般的ですが、pではなくy (y o b s = 1 | x )が観察されることに注意してください。yobs=1yobs=1y_{obs}=1yobs=0yobs=0y_{obs}=0yyyp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) いくつかのことがわかります。 左側でがスパースであることを意図的にシミュレーションしました。情報(観察)が不足しているため、ここでは信頼と信頼できる間隔を広くしてほしい。xxx …

3
ベイジアンモデルの選択と信頼できる区間
3つの変数を含むデータセットがあり、すべての変数は量的変数です。それを、x 1、x 2と呼びましょう。私はMCMCを介してベイジアンの視点で回帰モデルをフィッティングしていますyyyx1x1x_1x2x2x_2rjags 私は探索的分析を行い、散布図は、2次項を使用する必要があることを示唆しています。それから私は2つのモデルを取り付けましたy×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 モデル1では、各パラメーターの効果サイズは小さくなく、95%の信頼できる間隔には値が含まれていません。000 モデル2のパラメータの効果の大きさは、及びβ 4が小さいものであり、全てのパラメータの信頼区間のそれぞれに含まれる0。β3β3\beta_3β4β4\beta_4000 信頼できる間隔にが含まれているという事実は、パラメーターが重要ではないと言うのに十分ですか?000 次に、次のモデルを調整しました (3)y=β0+β1∗x1+β2∗x2+β3∗x22y=β0+β1∗x1+β2∗x2+β3∗x22y=\beta_0+\beta_1*x_1+\beta_2*x_2+\beta_3*x^2_2 β1β1\beta_1000 ベイジアン統計で変数選択を行う正しい方法はどれですか? log(σ)=−δδXlog(σ)=−δδXlog(\sigma)=-\pmb{\delta}Xδδδδ\pmb{\delta}δδδδ\pmb{\delta} βjβj\beta_jδjδj\delta_j ガウスモデルの推定値は次のとおりです。 Mean SD Naive SE Time-series SE B[1] -1.17767 0.07112 0.0007497 0.0007498 B[2] -0.15624 0.03916 0.0004128 0.0004249 B[3] 0.15600 0.05500 0.0005797 0.0005889 B[4] 0.07682 0.04720 0.0004975 0.0005209 delta[1] -3.42286 0.32934 0.0034715 0.0034712 delta[2] …

6
p値を使用して、仮説が真である確率を計算します。他に何が必要ですか?
質問: p値についてよくある誤解の1つは、帰無仮説が真である確率を表しているということです。私はそれが正しくないことを知っています。また、帰無仮説が真である場合、p値はこれと同じくらい極端なサンプルを見つける確率を表すだけであることを知っています。しかし、直感的には、後者から最初のものを導出できるはずです。誰もこれをしていない理由があるに違いない。p値と関連データから仮説が真である確率を導き出すことを制限する、どのような情報が欠けているのでしょうか? 例: 私たちの仮説は「ビタミンDは気分に影響を与える」です(帰無仮説は「影響なし」です)。1000人で適切な統計調査を行い、気分とビタミンレベルの相関関係を見つけたとします。他のすべてのものが等しい場合、0.01のp値は、0.05のp値よりも真の仮説の可能性が高いことを示します。たとえば、p値が0.05であるとします。仮説が真である実際の確率を計算できないのはなぜですか?どのような情報が不足していますか? 頻度主義統計学者のための代替用語: 私の質問の前提を受け入れるなら、ここを読むのをやめることができます。以下は、仮説が確率解釈を持つ可能性があることを受け入れない人のためのものです。少し用語を忘れましょう。代わりに... 友達と賭けているとしましょう。あなたの友人はあなたに無関係な主題についての千の統計的研究を示します。各スタディでは、p値、サンプルサイズ、およびサンプルの標準偏差のみを確認できます。それぞれの研究について、あなたの友人はあなたに、研究で提示された仮説が真実であると賭ける確率を提供します。賭けをするかしないかを選択できます。1000件すべての研究に賭けをした後、オラクルがあなたに上って、どの仮説が正しいかを教えてくれます。この情報により、賭けを清算することができます。私の主張は、このゲームに最適な戦略があるということです。私の世界観では、これは仮説の確率が真であることを知ることと同じですが、私たちが同意しない場合は問題ありません。その場合、賭けの期待を最大化するためにp値を使用する方法について簡単に話すことができます。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
論文におけるガウス過程回帰方程式の導出に関する疑問
私はこのペーパープレプリントを読んでおり、ガウスプロセス回帰の方程式の導出を理解するのに苦労しています。彼らはラスムッセンとウィリアムズの設定と表記法を使用しています。したがって、添加剤、ゼロ平均、固定及び正常分散とノイズ分散想定されます。σ2noiseσnoise2\sigma^2_{noise} y=f(x)+ϵ,ϵ∼N(0,σ2noise)y=f(x)+ϵ,ϵ∼N(0,σnoise2)y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise}) ゼロ平均を有する従来A GPのために想定される、手段∀ D ∈ N、F = { F (X 1)、... 、Fは(X D)}平均0及び共分散行列を有するガウスベクトルでありますf(x)f(x)f(\mathbf{x})∀ d∈N∀ d∈N\forall \ d\in Nf={f(x1),…,f(xd)}f={f(x1),…,f(xd)}\mathbf{f}=\{f(\mathbf{x_1}),\dots,f(\mathbf{x_d})\} Σd=⎛⎝⎜⎜k(x1,x1)k(xd,x1)⋱k(x1,xd)k(xd,xd)⎞⎠⎟⎟Σd=(k(x1,x1)k(x1,xd)⋱k(xd,x1)k(xd,xd))\Sigma_d=\pmatrix{k(\mathbf{x_1},\mathbf{x_1})& & k(\mathbf{x_1},\mathbf{x_d}) \\ & \ddots & \\k(\mathbf{x_d},\mathbf{x_1})& & k(\mathbf{x_d},\mathbf{x_d}) } これからは、ハイパーパラメータが既知であると仮定します。次に、論文の式(4)は明白です。 p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(\mathbf{f},\mathbf{f^*})=N\left(0,\pmatrix { K_{\mathbf{f},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f}} \\K_{\mathbf{f^*},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f^*}}} \right) ここで疑問が生じます: 式(5): p(y|f)=N(f,σ2noiseI)p(y|f)=N(f,σnoise2I)p(\mathbf{y}|\mathbf{f})=N\left(\mathbf{f},\sigma^2_{noise}I \right) E[f]=0E[f]=0E[\mathbf{f}]=0E[y|f]=f≠0E[y|f]=f≠0E[\mathbf{y}|\mathbf{f}]=\mathbf{f}\neq0ff\mathbf{f}y=c+ϵy=c+ϵ\mathbf{y}=\mathbf{c}+\boldsymbol{\epsilon}cc\mathbf{c}ϵϵ\boldsymbol{\epsilon} とにかく、それは私にはより不明瞭な式(6)です。 p(f,f∗|y)=p(f,f∗)p(y|f)p(y)p(f,f∗|y)=p(f,f∗)p(y|f)p(y)p(\mathbf{f},\mathbf{f^*}|\mathbf{y})=\frac{p(\mathbf{f},\mathbf{f^*})p(\mathbf{y}|\mathbf{f})}{p(\mathbf{y})} …

2
ガウス分布のベイズ混合への確率変分推論の適用
この論文に続いて、確率的変分推論で混合ガウスモデルを実装しようとしています。 これはガウス混合のpgmです。 論文によると、確率的変分推論の完全なアルゴリズムは次のとおりです。 そして、私はそれをGMMにスケーリングする方法にまだ非常に混乱しています。 まず、ローカル変分パラメーターはあり、その他はすべてグローバルパラメーターであると考えました。私が間違っていたら訂正してください。ステップ6はどういう意味ですか?これを達成するにはどうすればよいですか?qzqzq_zas though Xi is replicated by N times これで私を助けてくれませんか?前もって感謝します!

1
ベイジアン統計が頻出法による推定が非常に困難なパラメーターを推定する方法の例
ベイジアン統計学者は、「ベイジアン統計は、頻度論的手法による推定が非常に困難なパラメーターを推定できる」と主張しています。このSASドキュメントからの次の引用は、同じことを言っていますか? これは、漸近近似に依存せずに、データを条件として正確な推論を提供します。小さなサンプルの推論は、大きなサンプルがある場合と同じように進行します。ベイジアン分析では、「プラグイン」手法(関数の推定されたパラメーターをプラグインして関数を推定する方法)を使用せずに、パラメーターの関数を直接推定することもできます。 私はいくつかの教科書で同様の声明を見ましたが、どこで覚えていません。誰かが例を挙げてこれを説明してくれませんか?

1
ベイジアンオンラインチェンジポイント検出(マージナル予測分布)
私は、AdamsとMacKayによるベイジアンのオンラインチェンジポイント検出ペーパー(リンク)を読んでいます。 著者は限界予測分布を書くことから始めます: ここでP(xt + 1| バツ1 :t)= ∑rtP(xt + 1|rt,x(r)t)P(rt|x1:t)(1)P(xt+1|x1:t)=∑rtP(xt+1|rt,xt(r))P(rt|x1:t)(1) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1) txtxtx_tは時間での観測です。ttt tx1:tx1:t\textbf{x}_{1:t}は、時刻までの一連の観測を示します。ttt rt∈Nrt∈Nr_t \in \mathbb{N}は現在のランレングスです(最後の変化点からの時間。0でもかまいません)。そして r tx(r)txt(r)\textbf{x}_t^{(r)}は、実行関連付けられた観測値のセットです。rtrtr_t Eq。1は正式に正しい(@JuhoKokkalaによる以下の返信を参照)が、について実際に予測したい場合は、次のように展開する必要があると理解しています。xt+1xt+1x_{t+1} P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,x(r)t)P(rt|x1:t)P(rt+1|rt)(1b)P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} P(x_{t+1} | r_{t+1}, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) P(r_{t+1} | r_t) …

3
ベイジアンはいつ(そしてなぜ)有効なベイジアン手法を拒否するのですか?[閉まっている]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 3年前休業。 私が読んだものとここで私が尋ねた他の質問への回答から、多くのいわゆる頻出法は数学的に対応しています(哲学的に対応しているかどうかは気にせず、数学的に対応しているかどうかは気にしません)ベイズ法(これに反対する人は、この質問の最後にある注を参照してください)。(私のではなく)関連する質問に対するこの回答は、この結論を裏付けています: ほとんどのFrequentistメソッドには、ほとんどの状況で基本的に同じ結果が得られるベイジアン等価があります。 以下では、数学的に同じであることは、同じ結果を与えることを意味することに注意してください。常に「異なる」と同じ結果をもたらすことが証明できる2つの方法を特徴付ける場合、それはあなたの権利ですが、それは哲学的判断であり、数学的なものでも実際的なものでもありません。 「ベイジアン」と自己記述している多くの人々は、しかしながら、それは「頻度論的方法」であるため、(数学的に)ベイジアン法の特別なケースであるにもかかわらず、どんな状況でも最尤推定の使用を拒否するようです。どうやらベイジアンは、ベイジアンの観点からこれらの分布も数学的に正しいとはいえ、頻度に比べて制限された/限られた数の分布を使用しているようです。 質問:ベイジアンは、ベイジアンの観点から数学的に正しい方法をいつ、なぜ拒否するのですか?これについて「哲学的」ではない正当化はありますか? 背景/コンテキスト:以下は、CrossValidatedに関する私の以前の質問に対する回答とコメントからの引用です。 ベイジアン対頻出論争の数学的根拠は非常に単純です。ベイジアン統計では、未知のパラメーターは確率変数として扱われます。頻出統計では固定要素として扱われます... 上記から、(数学的に言えば)ベイジアン法はベイジアン法と同じ数学の仮定のすべてを満たしているが、その逆ではないという意味で、ベイジアン法は頻出主義の方法よりも一般的であると結論づけました。しかし、同じ答えは、上記からの私の結論は間違っていたと主張しました(以下の強調は私のものです): 定数は確率変数の特殊なケースですが、ベイジアンがより一般的であると結論するのをためらいます。単に確率変数を定数に折りたたむだけでは、ベイジアンの結果から頻繁な結果を得ることはできません。違いはもっと深いです... 個人的な好みに行きます... ベイジアン統計が利用可能な分布のかなり限定されたサブセットを使用するのが好きではありません。 別のユーザーは、回答でベイズ法がより一般的であると反対に述べていますが、奇妙なことに、これがなぜそうであるのかについて私が見つけることができた最良の理由は、頻度論者として訓練された誰かによって与えられた前の回答でした。 数学的帰結は、頻度論者は確率の基本方程式がたまにしか当てはまらないと考え、ベイジアンは常に当てはまると考えているということです。したがって、彼らは同じ方程式を正しいと見なしますが、それらがどれほど一般的であるかは異なります...ベイジアンは、頻度論よりも厳密に一般的です。事実には不確実性があるため、どの事実にも確率を割り当てることができます。特に、作業しているファクトが実際の頻度に関連している場合(予測しているものまたはデータの一部として)、ベイズ法は、他の実際のファクトと同じようにそれらを考慮して使用できます。したがって、問題が頻繁に発生すると、ベイジアンに適用される方法が自然に取り組むことができます。 上記の回答から、私は一般的に使用されているベイジアンという用語の少なくとも2つの異なる定義があるとの印象を持っています。最初に、定数RVであるパラメーターと定数RVではないパラメーターが含まれているため、統計のすべての方法を網羅する「数学的にベイジアン」と呼びます。次に、「文化的にベイズ的」な方法が「頻繁に使用される」ため、「文化的にベイズ的」な方法を拒絶する「文化的ベイズ的」があります(つまり、定数または頻度としてモデル化されているパラメータに対する個人的な敵意から)。前述の質問に対する別の回答もこの推測をサポートしているようです。 また、2つのキャンプが使用するモデル間には、実行できることよりも実行されたものに関連するモデルがたくさんあります(つまり、一方のキャンプで従来使用されている多くのモデルは、もう一方のキャンプで正当化できます))。 ですから、私の質問の別の言い方は次のようになると思います:文化的なベイジアンが数学的に多くのベイジアン手法を拒否するのに、なぜベイジアンと呼ばれるのですか?そして、なぜ彼らはこれらの数学的なベイズ法を拒否するのですか?それらの特定の方法を最も頻繁に使用する人々にとって、それは個人的な敵意ですか? iii推定値に同じ値を指定します。これらは同じプロパティを持っているため、数学的に同等です。おそらく、哲学的な違いは個人的には関係がありますが、この質問には関係ありません。 注:この質問には、元々MLE推定とMAP推定の特性が不正確であり、以前は一様でした。

1
ランダムな尺度で統合するとはどういう意味ですか?
私は現在、ディリクレ過程変量効果モデルの論文を見ています。モデルの仕様は次のとおりです: y私ψ私G= X私β+ ψ私+ ϵ私〜G〜D P(α 、G0)yi=Xiβ+ψi+ϵiψi∼GG∼DP(α,G0) \begin{align*}y_{i} &= X_{i}\beta + \psi_{i} + \epsilon_{i}\\ \psi_{i} &\sim G \\ G &\sim \mathcal{DP}\left(\alpha, G_{0}\right) \end{align*}αα\alphaG0G0G_{0}G0G0G_{0}∫f(yj| θ、 ψj)dG0(ψj)。∫f(yj|θ,ψj)dG0(ψj). \int f\left(y_{j}|\theta, \psi_{j}\right)\, dG_{0}\left(\psi_{j}\right).

2
ベイズ推定量の比較
二次損失以前に与えられたで、です。ましょう 尤度。ベイズ推定器を見つけます。L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi 加重二次損失 ここで、 前に ます。ましょう可能性です。ベイズ推定器を見つけます。Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 と比較するδπδπ\delta^\piδπ1δ1π\delta^\pi_1 最初に、に気づき、それが可能性であると想定しました。そうでない場合、事後は得られず、 したがって、2次損失に関するベイズ推定量は f(x|θ)∼Beta(θ,1)f(x|θ)∼Beta(θ,1)f(x|\theta)\sim Beta(\theta,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)\pi(\theta|x)\propto f(x|\theta)\pi(\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}*2\mathbb{I}_{(0,1/2)}(\theta)\sim Beta(\theta,1)E[π(θ|x)]=θθ+1E[π(θ|x)]=θθ+1\mathbb{E}[\pi(\theta|x)]=\frac{\theta}{\theta+1} 私は本「ベイジアンチョイス」を探しています。加重2次損失に関連するベイズ推定量に関する定理があり、それは δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]\delta^\pi(x)=\frac{\mathbb{E}^\pi[w(\theta)\theta|x]}{\mathbb{E}^\pi[w(\theta)|x]} 誰かが私にそれを計算する方法を説明できますか? 私が試したのは: δπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθδπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθ\delta^\pi(x)=\frac{\frac{\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x|\theta)\pi(\theta)d\theta}}{\frac{\int f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x\theta)\pi(\theta)d\theta}} サポートがであることは知っていますが、分子に統合しようとしたとき[0,12][0,12][0,\frac{1}{2}] ∫θw(θ)f(x|θ)π(θ)dθ=∫120θθxθ−1dθ=1x∫120θ2xθdθ∫θw(θ)f(x|θ)π(θ)dθ=∫012θθxθ−1dθ=1x∫012θ2xθdθ\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta=\int_0^\frac{1}{2}\theta\theta x^{\theta-1}d\theta=\frac{1}{x}\int_0^\frac{1}{2}\theta^2 x^\theta d\theta 良い結果は得られません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.