タグ付けされた質問 「prior」

ベイジアン統計では、事前分布は、サンプルが見られる前に利用できる情報または知識(多くの場合、主観的)を確率分布の形で形式化します。大きな分散の分布は、パラメータについてほとんど知られていない場合に使用されますが、より狭い事前分布はより多くの情報を表します。

1
ネグ二項とジェフリーズ・プリアー
負の二項分布のジェフリーズの事前分布を取得しようとしています。どこが悪いのかわからないので、誰かが指摘してくれると助かります。 さて、状況ように、このです。私は二項と負の二項を用いて得られた事前分布を比較するために午前、(両方の場合に)がある場合試験およびMの成功は。二項式の場合は正しい答えが得られますが、負の二項式の場合は得られません。んnnメートルmm レッツ・コールジェフリーズの事前。そして、πJ(θ )πJ(θ)\pi_J(\theta) πJ(θ )∝ [ I(θ )]1 / 2。πJ(θ)∝[I(θ)]1/2. \pi_J(\theta)\propto [I(\theta)]^{1/2}. 規則性の条件の下で(指数関数的なファミリーを扱っているので満たされます)、 ここで、負の二項のために、Nであり、X成功の総数が上記式(中mは固定されて、N)ではありません。分布-私は思う-は私(θ )= − E(∂2ログL (θ | x )∂θ2)I(θ)=−E(∂2log⁡L(θ|x)∂θ2) I(\theta)=-E\left(\frac{\partial^2 \log L(\theta|x)}{\partial \theta^2}\right) んnnバツxxmmmnnn p(m|θ)∝θm(1−θ)n−mp(m|θ)∝θm(1−θ)n−m p(m|\theta)\propto\theta^m(1-\theta)^{n-m} θθ\thetammmmmm L(θ|n)∝θm(1−θ)n−mlogL(θ|n)=mlogθ+(n−m)log(1−θ)∂logL(θ|n)∂θ=mθ−n−m1−θ∂2logL(θ|n)∂θ2=−mθ2−n−m(1−θ)2L(θ|n)∝θm(1−θ)n−mlog⁡L(θ|n)=mlog⁡θ+(n−m)log⁡(1−θ)∂log⁡L(θ|n)∂θ=mθ−n−m1−θ∂2log⁡L(θ|n)∂θ2=−mθ2−n−m(1−θ)2 L(\theta|n)\propto\theta^m(1-\theta)^{n-m}\\ \log L(\theta|n)=m\log\theta +(n-m)\log (1-\theta)\\ \frac{\partial\log L(\theta|n)}{\partial \theta}=\frac{m}{\theta}-\frac{n-m}{1-\theta}\\ \frac{\partial^2\log L(\theta|n)}{\partial \theta^2}=-\frac{m}{\theta^2}-\frac{n-m}{(1-\theta)^2} I(θ)=−E(∂2logL(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3I(θ)=−E(∂2log⁡L(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3 I(\theta)=-E\left(\frac{\partial^2\log L(\theta|n)}{\partial \theta^2}\right)=\frac{m}{\theta^2}+\frac{E(n)-m}{(1-\theta)^2}=\frac{m}{\theta^2}+\frac{\frac{m\theta}{1-\theta}-m}{(1-\theta)^2}\\ =\frac{m(1-\theta)^2+\frac{m\theta^3}{(1-\theta)}-m\theta^2}{\theta^2(1-\theta)^2}=\frac{m(1-2\theta)+\frac{m\theta^3}{(1-\theta)}}{\theta^2(1-\theta)^2}\\ =\frac{m(1-2\theta)(1-\theta)+m\theta^3}{\theta^2(1-\theta)^3}=\frac{m(1-3\theta+2\theta^2+\theta^3)}{\theta^2(1-\theta)^3}\\ \propto\frac{1-3\theta+2\theta^2+\theta^3}{\theta^2(1-\theta)^3} しかし、これは私に正しい答えを与えません。正解は …

2
「ユニット情報事前」とは何ですか?
私はWagenmakers(2007)を読んでいます。p値の一般的な問題に対する実用的な解決策です。BIC値をベイズ因子と確率に変換することに興味をそそられます。しかし、これまでのところ、以前の単位情報が正確に何であるかをよく理解していません。この特定の以前の写真、または写真を生成するためのRコードの説明に感謝します。

2
MCMCサンプラーにJeffreysまたはエントロピーベースの事前分布を使用することに対する推奨事項があるのはなぜですか?
上の彼らのwikiページ、スタン状態の開発者: 私たちが好きではないいくつかの原則:不変性、ジェフリーズ、エントロピー 代わりに、正規の配布に関する推奨事項がたくさんあります。これまでのところ、サンプリングに依存しないベイズ法を使用しており、は、二項尤度の良い選択でした。θ∼Beta(α=12,β=12)θ∼Beta(α=12,β=12)\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)
11 bayesian  mcmc  prior  pymc  stan 

1
LKJcorrが相関行列に適しているのはなぜですか?
私は、(素晴らしい)本の統計的再考(Richard McElreath著)の第13章「Adventures in Covariance」を読んでいます。彼は次の階層モデルを提示しています。 (Rは相関行列です) 著者は、それLKJcorrが相関行列の正則化事前として機能する弱く情報的な事前であると説明しています。しかし、なぜそうなのでしょうか。LKJcorr分布がどのような特性を持っているので、相関行列にとってこれほど優れています。相関行列に実際に使用されている他の良い事前分布はどれですか?

3
事前情報を引き出す…お金で!
ある変数Xの事前分布を引き出したい「エキスパート」があるとします。リアルマネーでやる気を出してもらいたい。アイデアは、事前変数を引き出し、確率変数Xのn個の実現を観察し、事前変数が証拠とどの程度一致するかに基づいて、所定の「財布」を専門家の間で分配することです。この最後の部分で推奨される方法は何ですか?事前情報と証拠を支払いベクトルにマッピングしますか?kkkバツXXんnnバツXX
10 bayesian  prior 


1
不適切な事前確率を持つベイズ因子
ベイズ因子を使用したモデル比較について質問があります。多くの場合、統計学者は不適切な事前分布(たとえば、一部のジェフリーズ事前分布と参照事前分布)を使用したベイジアンアプローチの使用に関心を持っています。 私の質問は、モデルパラメーターの事後分布が明確に定義されている場合、不適切な事前分布を使用してベイズ因子を使用するモデルを比較することは有効ですか? 簡単な例として、正規モデルとロジスティックモデルをジェフリーズ事前分布と比較することを検討してください。


1
スタンで以前の分布をプロットする方法は?
以前の分布のプロットを得るために、データなしでスタンモデルを実行しようとしました。ただし、これは可能ではないようです。サンプルが含まれていないモデルに関するエラーメッセージが表示されます。では、以前のディストリビューションを入手する方法はありますか?サンプラーなしでスタンを実行することは可能でしょうか?
10 prior  stan 

3
ベイズ推定器は、真のパラメーターが前のものの可能な変量であることを要求しますか?
これは哲学的な質問のビットかもしれませんが、ここで私達は行く:決定理論では、リスクのベイズ推定量θ(X )のためのθ ∈ Θ事前分布に関して定義されたπのΘ。θ^(x)θ^(x)\hat\theta(x)θ∈Θθ∈Θ\theta\in\Thetaππ\piΘΘ\Theta ここで、一方で、真のがデータを生成した(つまり、「存在する」)には、θはπの下で可能な変数である必要があります。一方、θは既知ではないため、事前分布が選択されているため、真のθが、選択したπの下で可能な変量であるという保証はありません。θθ\thetaθθ\thetaππ\piθθ\thetaθθ\thetaππ\pi さて、どうやらθが変量になるようにを選択する必要があるようです。そうでなければ、特定の定理が成り立たなくなります。たとえば、ミニマックス推定値は、最も好ましい事前分布のベイズ推定値にはなりません。なぜなら、その領域からθを含む大きな領域を除外し、その領域からθを含めることで、事前分布を任意に悪くすることができるからです。ただし、θが実際に領域内にあることを保証することは困難です。ππ\piθθ\thetaθθ\thetaθθ\theta だから私の質問は: 一般的に、実際のはπの可能な変量であると想定されていますか?θθ\thetaππ\pi これは保証されますか? これに違反するケースは少なくとも何らかの方法で検出できるので、条件が満たされない場合、ミニマックスなどの定理に依存しませんか? それが必要でない場合、なぜ決定理論の標準結果が保持されるのですか?

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
事前確率分布をどのように形式化しますか?経験則や使用すべきヒントはありますか?
ベイジアン統計分析と意思決定における事前情報の概念をよく理解していると思いたいのですが、そのアプリケーションに頭を悩ませるのに苦労することがよくあります。私は自分の闘争を例証するいくつかの状況を念頭に置いており、これまでに読んだベイジアン統計教科書ではそれらが適切に扱われていないと感じています。 数年前に私が実施した調査で、68%の人がACME製品の購入に関心があると言ったとします。再度調査を行うことにしました。前回と同じサンプルサイズ(たとえば、n = 400)を使用しますが、それ以降、人々の意見は変わった可能性があります。ただし、以前のバージョンとして、400人中272人が「はい」と回答したベータ版の分布を使用する場合、数年前に行った調査と現在実施している調査に同じ重みを与えます。そのデータが数年前のものであるという理由で、以前に置いておきたいより大きな不確実性を確立するための経験則はありますか?以前のものを272/400から例えば136/200に減らすことができると理解していますが、これは非常に恣意的であり、おそらく文献に何らかの形で正当化があるのだろうかと思います。 別の例として、臨床試験を実行しようとしているとしましょう。試験を開始する前に、専門家の意見、以前の臨床試験(関連性の異なる)の結果、その他の基本的な科学的事実など、予備情報として使用できるいくつかの二次調査を実行します。 (そのうちのいくつかは本質的に非定量的です)事前の確率分布?データに圧倒されることを確実にするためにどの家族を選び、それを普及させるかを決定するだけのケースですか、それともかなり有益な事前配布を確立するために行われる多くの作業がありますか?

1
測定誤差に基づく事前分布の選択
機器の測定誤差がある場合、どのように適切な事前計算を行いますか?この段落は、Cressieの本「時空間データの統計」からのものです。 多くの場合、測定誤差の分散に関するいくつかの事前情報が利用可能であり、かなり有益なパラメータモデルを指定できます。我々は条件付き独立した測定誤差を想定している場合、例えば、IIDされる 、我々はのために有益前指定する必要があり。周囲の気温に関心があり、計器メーカーの仕様に±0.1℃の「誤差」が示されていることがわかりました。この「エラー」が2つの標準偏差(チェックする必要があるという仮定)に対応していると仮定すると、\ sigma _ {\ epsilon} ^ {2}を指定して、以前の平均が(0.1 / 2)^ 2 = 0.0025になるようにします。Gau(0,σ2ϵ)Gau(0,σϵ2)Gau(0, \sigma_{\epsilon}^2)σ2ϵσϵ2\sigma_{\epsilon}^2±0.1°C±0.1°C±0.1°Cσ2ϵσϵ2\sigma_{\epsilon}^{2}(0.1/2)2=0.0025(0.1/2)2=0.0025(0.1/2)^2 = 0.0025。機器メーカーの仕様により、0.0025に明確に定義されたかなり狭いピーク(たとえば、逆ガンマ)を持つ分布を想定します。実際、0.0025に修正するだけで済みます。ただし、データモデルエラーには、他にも不確実性の要素がある場合があります(セクション7.1)。プロセスモデルのエラーによる識別可能性の問題の可能性を回避するには、データを複製するように設計されたサイドスタディを行うことを含め、モデル作成者がサイエンスの許す限り不確実性を減らすことが非常に重要です。 上記のように事前の値を取得するための一般的な手順は何か知っていますか(段落では事前の平均を取得することのみを参照していますが)。

2
ベイジアン設定での以前の「物忘れ」?
それはあなたがより多くの証拠を持っているように(大きい方の形で言っていることはよく知られているについて、ベイジアン前「忘れられた」ますIID例)、及び推論のほとんどは、証拠(または可能性)の影響を受けています。nんnnんnn さまざまな特定のケース(ベータ前のベルヌーイやその他のタイプの例など)で簡単に確認できますが、一般的なケースでといくつかの以前の?P (μ )バツ1、… 、xん〜P (X | μ )x1,…,xn∼p(x|μ)x_1,\ldots,x_n \sim p(x|\mu)p (μ )p(μ)p(\mu) 編集:私はそれが任意の事前の一般的なケースでは表示できないと思います(たとえば、点質量の事前は事後点質量を維持します)。しかし、おそらく、事前が忘れられる特定の条件があるでしょう。 これは、私がそのようなものを示すことを考えている種類の「パス」です。 パラメータ空間がであると仮定し、とを2つの事前分布とすると、すべてのにゼロ以外の確率質量が配置されます。したがって、それぞれの以前の2つの事後計算は次のようになります。P (θ )、Q (θ )ΘΘΘ\Thetap (θ )p(θ)p(\theta)q(θ )q(θ)q(\theta)ΘΘ\Theta p (θ | x1、… 、xん)= ∏私p (x私| θ)p(θ)∫θΠ私p (x私| θ)p(θ)dθp(θ|x1,…,xn)=∏ip(xi|θ)p(θ)∫θ∏ip(xi|θ)p(θ)dθp(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) p(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) p(\theta) d\theta} および q(θ | …
9 bayesian  prior 

2
データが事前分布を決定し、これらの事前分布を使用してモデルを実行できるようにしますか?(例えば、同じデータセットからのデータ駆動型事前分布)
ベイジアン分析で以前の分布がどのように見えるかを決定するために、分析しているのと同じデータセットを許可するべきではないというのが私の理解です。具体的には、モデルの適合に役立つように事前分布を使用するのと同じデータセットからの要約統計に基づくベイズ分析の事前分布を定義することは不適切です。 これを不適切であると具体的に説明しているリソースを知っている人はいますか?この問題についていくつかの引用が必要です。
9 bayesian  prior 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.