タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

3
研究者1は1000回の回帰を実行し、研究者2は1回のみを実行しますが、どちらも同じ結果になります。異なる推論を行う必要がありますか?
研究者がデータセットを調査しており、1000の異なる回帰を実行し、それらの間に1つの興味深い関係を見つけたとします。 ここで、同じデータ を持つ別の研究者がたった1つの回帰を実行し、他の研究者が1000の回帰を見つけて見つけたものと同じであることがわかります。研究者2は研究者1を知りません。 研究者1は研究者2とは異なる推論をすべきですか?どうして?たとえば、研究者1は多重比較補正を実行すべきですが、研究者2は実行すべきではありませんか? 研究者2が最初に単一の回帰を示した場合、どのような推測をしますか?その後、研究者1が結果を示した場合、推論を変更する必要がありますか?もしそうなら、なぜそれが重要なのでしょうか? PS 1:仮想の研究者について話すと問題が抽象化されるので、考えてみてください。利用可能な最良の方法を使用して、論文の回帰を1回だけ実行したと想像してください。次に、別の研究者が、あなたが実行したまったく同じ回帰が見つかるまで、同じデータで1000の異なる回帰を調査しました。二人は異なる推論をする必要がありますか?両方のケースで証拠は同じですか?他の研究者の結果を知っている場合、推論を変更する必要がありますか?公衆は2つの研究の証拠をどのように評価すべきですか? PS 2:可能であれば、具体的で、数学的/理論的な正当化を提供するようにしてください!

2
MCMCサンプルからのモードの信頼性
彼の著書Doing Bayesian Data Analysisで、John KruschkeはRのJAGSを使用する際に次のように述べています。 ... MCMCサンプルからのモードの推定は、MCMCサンプルのランダムなバンプとリップルに敏感な平滑化アルゴリズムに基づいているため、かなり不安定になる可能性があります。(ベイジアンデータ分析の実行、ページ205、セクション8.2.5.1) メトロポリスアルゴリズムとギブスサンプリングのような正確な形式を把握していますが、スムージングアルゴリズムについてもよく知らないので、MCMCサンプルからのモードの推定が不安定になることを意味します。誰もが平滑化アルゴリズムが何をしていて、なぜモードの推定が不安定になるのかについて直感的な洞察を与えることができますか?
12 bayesian  mcmc  mode 

3
何かが頻度の高い特性を持つとはどういう意味ですか?
私はこのフレーズをよく耳にしましたが、その意味を完全に理解したことはありません。「良好なフリークエンシストプロパティ」というフレーズには、現在googleで2750ヒット、scholar.google.comで536ヒット、stats.stackexchange.comで4ヒットがあります。 私が明確な定義に最も近いものは、このスタンフォード大学のプレゼンテーションの最後のスライドから来ています。 95%の信頼区間を報告するという意味は、さまざまな推定問題があったとしても、主張の95%の真のパラメーターを「トラップ」することです。これは、頻度の高い特性を備えた推定手順の特徴的な特性です。繰り返し使用した場合、それらは精査に耐えます。 これについて少し考えてみると、「良好な周波数主義者の特性」というフレーズは、ベイズ法、特に区間構築のベイズ法の評価を暗示していると思います。ベイズの区間は、確率パラメーターの真の値を含むことを意図していることを理解しています。頻繁な間隔は、間隔構築のプロセスがp ∗ 100 %について何度も繰り返される場合に、pppp ∗ 100 %p∗100%p*100\%間隔のうち、パラメータの真の値が含まれます。ベイジアン間隔は、一般に、間隔の何%がパラメータの真の値をカバーするかについての約束をしません。ただし、一部のベイジアンメソッドには、何度も繰り返されると、の時間に関する真の値をカバーするという特性もあります。彼らがその特性を持っているとき、彼らは「良い周波数主義者の特性」を持っていると言います。p ∗ 100 %p∗100%p*100\% そうですか?フレーズは、良い周波数特性を持っているのではなく、良い周波数特性を指しているので、それ以上のものがあるに違いないと思います。

3
数値積分が高すぎるとはどういう意味ですか?
ベイジアン推論について読んでいて、「限界尤度の数値積分は高すぎる」というフレーズに出会いました 私は数学のバックグラウンドを持っていませんが、ここで高価とはどういう意味か疑問に思っていましたか?それは単に計算能力の観点からですか、それとも何かありますか。

2
共役事前の正当化?
使いやすさに加えて、共役優先順位を使用するための認識論的正当化(数学、哲学、ヒューリスティックなど)はありますか?それとも、それは通常、それが通常十分な近似であり、物事をはるかに簡単にするということだけですか?

1
ベイジアンモデルの選択におけるジェフリーズ-リンドリーのパラドックスをいつ心配する必要がありますか?
RJMCMCを使用して探索する、さまざまな複雑さのモデルの大きな(ただし有限の)スペースを検討しています。各モデルのパラメーターベクトルの事前分布は非常に有益です。 どのような場合(もしあれば)、より複雑なモデルの1つがより適している場合、ジェフリーズ-リンドリーのパラドックスがより単純なモデルを好むかについて心配する必要がありますか? ベイジアンモデルの選択におけるパラドックスの問題を浮き彫りにする簡単な例はありますか? 私はいくつかの記事、すなわち西安のブログとアンドリュー・ゲルマンのブログを読んだことがありますが、私はまだ問題をよく理解していません。

2
ベイジアンニューラルネットワークを使用する利点は何ですか
最近、私は、ベイジアンニューラルネットワーク(BNN)[Neal、1992]、[Neal、2012]についてのいくつかの論文を読みました。このようなニューラルネットワークのトレーニングは、従来の逆伝播アルゴリズムとは異なるMCMCを介して行われます。 私の質問は次のとおりです。そのようなニューラルネットワークを使用する利点は何ですか?具体的には、NNよりもBNNに適した例をいくつか挙げていただけますか?

2
Wishart-Wishart事後のパラメーターは何ですか?
精密マトリックスinfering場合ΛΛ\boldsymbol{\Lambda}生成するために使用される正規分布のNNN D次元のベクトルx1,..,xNx1,..,xN\mathbf{x_1},..,\mathbf{x_N} xi∼N(μ,Λ−1)xi∼N(μ,Λ−1)\begin{align} \mathbf{x_i} &\sim \mathcal{N}(\boldsymbol{\mu, \Lambda^{-1}}) \\ \end{align} 私たちは通常、前上ウィシャートを置くΛΛ\boldsymbol{\Lambda}ウィッシャート分布が知られている平均と未知の分散を持つ多変量正規分布のprecissionのためのコンジュゲート前であることから: Λ∼W(υ,Λ0)Λ∼W(υ,Λ0)\begin{align} \mathbf{\Lambda} &\sim \mathcal{W}(\upsilon, \boldsymbol{\Lambda_0}) \\ \end{align} ここである自由度とスケール行列が。モデルに堅牢性と柔軟性を追加するために、ウィシャートのパラメーターよりも優先度を高くしました。たとえば、GörürとRasmussenは次の提案しています: whereυυ\upsilonΛ0Λ0\boldsymbol{\Lambda_0}GΛ01υ−D+1∼W(D,1DΛx)∼G(1,1D)Λ0∼W(D,1DΛx)1υ−D+1∼G(1,1D)\begin{align} \mathbf{\Lambda_0} &\sim \mathcal{W}(D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ \frac{1}{\upsilon-D + 1} &\sim \mathcal{G}(1, \frac{1}{D}) \\ \end{align}GG\mathcal{G}はガンマ分布です。 質問: 後部をサンプリングするためP (Λ 0 | X 、Λ 、υ 、D 、Λ X)α W(Λ | υ 、Λ 0)W(Λ 0 | …

1
MCMCで自己相関プロットを解釈する方法
「子犬の本」としても知られるジョンK.クルシュケの本Doing Bayesian Data Analysisを読んで、ベイジアン統計に精通しています。第9章では、この単純な例で階層モデルを紹介します: 及びベルヌーイ観察は3枚のコイン、それぞれ10のフリップあります。1つは9つのヘッド、他の5つはヘッド、もう1つは1つのヘッドです。yj iθjμκ〜BのEのR 、N 、O 、U 、L L I(θj)〜BのEのトン(μκ、(1-μ)κ)〜BのE T(Aμ、Bμ)〜G A M M A(Sκ、Rκ)yj私〜Bernoあなたはll私(θj)θj〜Beta(μκ、(1−μ)κ)μ〜Beta(Aμ、Bμ)κ〜Gamma(Sκ、Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) \end{align} ハイパーパラメーターを推測するためにpymcを使用しました。 with pm.Model() as model: # define the mu = …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
なぜこの分布は均一なのですか?
私たちはベイジアン統計検定を調査していますが、奇妙な(少なくとも私にとって)現象に出くわします。 次の場合を考えてみましょう。AまたはBのどちらの母集団のコンバージョン率が高いかを測定することに関心があります。健全性チェックでは、を設定しpA=pBpA=pBp_A = p_Bます。つまり、変換の確率は両方のグループで等しくなります。二項モデルを使用して人工データを生成しnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 次に、ベイジアンベータ二項モデルを使用してを推定し、各変換レートの事後確率を取得します。たとえば、pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 検定統計量は経由でを計算して計算されます。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 私が驚いたのは、場合、です。私は、サンプルサイズNが大きくなると、0.5を中心に0.5に収束し、さらには0.5に収束すると考えていました。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 私の質問は、 p_A = p_BのときにS \ sim \ text {Uniform(0,1)} なのはなぜですか?S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B デモするPythonコードを次に示します。 %pylab from …

2
インテリジェンス二乗スコアリングと勝者決定
Intelligence Squaredと呼ばれるNPRポッドキャストがあります。各エピソードは、「第2改正はもはや関係ない」または「大学のキャンパスでの積極的措置は、善よりも害をもたらす」などの論争的な声明に関するライブ討論の放送です。4人の代表者が討議します。2人は動議、2人は反対です。 どちらが勝つかを決定するために、聴衆は討論の前後に投票されます。絶対パーセンテージでより多く獲得した側が勝者と見なされます。例えば: For Against Undecided Before 18% 42% 40% After 23% 49% 28% Winner: Against team -- The motion is rejected. 直観的には、この成功の尺度には偏りがあると思うので、公正な方法で勝者を決定するために聴衆をどのように投票するのか疑問に思っています。 現在の方法ですぐにわかる3つの問題: 極端な場合、一方が100%の合意で開始した場合、両者は結びつくか失うかしかできません。 未決定がない場合、初期合意が少ない側は、描画元のサンプルサイズが大きいと見なすことができます。 未決定の側が本当に未決定である可能性は低いです。両側が等しく分極されていると仮定すると、未決定の人口についての私たちの以前の信念は、それぞれが側に追いやられた場合、であると思われます。Beta(# For,# Against)ベータ(# にとって、#に対して)\text{Beta}(\text{# For}, \text{# Against}) オーディエンスポーリングに頼らなければならないことを考えると、勝者を判断するより公平な方法はありますか?
12 bayesian  rating 

3
ベイジアン対MLE、オーバーフィット問題
BishopのPRML本で、彼は、過剰適合は最尤推定(MLE)の問題であり、ベイジアンはそれを避けることができると言っています。 しかし、オーバーフィッティングはモデル選択に関する問題であり、パラメーター推定に使用される方法に関する問題ではないと思います。つまり、f (x )= s i n (x )を介して生成されるデータセットがあるとします。DDD、今私は別のモデルを選択かもしれない Hを、私は、データをフィットし、1が最良であるかを調べるために。検討中のモデルが異なる次数を有する多項式のものであり、 H 1はオーダー1であり、 H 2は、順序2、 H 3は、順序9です。f(x)=sin(x),x∈[0,1]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]HiHiH_iH1H1H_1H2H2H_2H3H3H_3 今、私はデータに合うようにしようと 3機種のそれぞれに、各モデルは、と表記その偶然に、持っているワット私のためのH 私を。DDDwiwiw_iHiHiH_i MLを使用して、私はモデルパラメータの点推定値があります、そしてH 1は、一方で、単純すぎるとなり、常にデータunderfitであるH 3があまりにも複雑で、データをオーバーフィットします、唯一のH 2は、データをうまくフィットします。wwwH1H1H_1H3H3H_3H2H2H_2 私の質問は、 1)モデルはデータをオーバーフィットしますが、MLの問題ではなく、モデル自体の問題だと思います。なぜなら、H 1に MLを使用すると、H 2が過適合にならないからです。私は正しいですか?H3H3H_3H1,H2H1,H2H_1,H_2 2)ベイジアンと比較して、MLにはいくつかの欠点があります。モデルパラメーターポイント推定値を与えるだけであり、自信過剰だからです。一方、ベイジアンはパラメーターの最も可能性の高い値だけに依存するのではなく、観測されたデータDを与えられたパラメーターのすべての可能な値に依存しますか?wwwDDD 3)なぜベイジアンは過剰適合を回避または減少できるのですか?私が理解しているように、モデルの比較にベイジアンを使用できます。つまり、データ与えられると、検討中の各モデルの限界尤度(またはモデル証拠)を見つけ、最も限界尤度が高いものを選択できます。 ?もしそうなら、なぜですか?DDD

1
確率の比率とPDFの比率
クラスタリングの問題を解決するためにベイズを使用しています。いくつかの計算を行った後、2つの確率の比率を取得する必要があります。 P(A)/P(B)P(A)/P(B)P(A)/P(B) を取得できるようにします。これらの確率は、この回答で説明されているように、2つの異なる2D多変量KDEの統合によって得られます。P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy ここで、f^(x,y)f^(x,y)\hat{f}(x, y)およびg^(x,y)g^(x,y)\hat{g}(x, y)はKDEであり、しきい値f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)およびg^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。両方のKDEはガウスカーネルを使用します。私が作業しているものに似たKDEの代表的な画像をここで見ることができます:2Dでのカーネル密度推定量の統合。 python関数stats.gaussian_kdeを使用してKDEを計算するため、次の一般的な形式を想定しています。 KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} ここnで、ポイントの配列の長さとh使用される帯域幅です。 上記の積分は、モンテカルロプロセスを適用して計算されますが、これは非常に計算コストがかかります。このようなケースでは、確率の比率をしきい値ポイントで評価されたPDF(KDE)の比率で置き換えて、同等の有効な結果を得ることができることをどこかで読みました(場所を忘れてしまった、申し訳ありません)。KDEs比の計算は、MCとの積分比の計算よりも桁違いに速いため、これに興味があります。 したがって、問題はこの式の妥当性に限定されます。 P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} どのような状況下で、もしあれば、この関係が真実であると言えますか? [誤字修正(編集)] 追加: …

1
厳密なフォンノイマン不等式の例
ましょうr(π,δ)r(π,δ)r(\pi, \delta)推定器の示すベイズリスクδδ\delta前に対してππ\piせ、ΠΠ\Piパラメータ空間上のすべての事前確率のセット表すΘΘ\Theta、およびlet ΔΔ\Delta(おそらくはランダム化)全ての集合を示す決定ルール。 ジョン・フォン・ノイマンのミニマックス不等式の統計的解釈は、 supπ∈Πinfδ∈Δr(π,δ)≤infδ∈Δsupπ∈Πr(π,δ),supπ∈Πinfδ∈Δr(π,δ)≤infδ∈Δsupπ∈Πr(π,δ), \sup_{\pi\in\Pi} \inf_{\delta\in\Delta} r(\pi, \delta) \leq \inf_{\delta\in\Delta}\sup_{\pi\in\Pi} r(\pi, \delta), と両方が有限である場合、一部のとに対して厳密な等価性が保証されます。δ′δ′\delta'π′π′\pi'ΘΘ\ThetaΔΔ\Delta 不平等が厳格な具体的な例を誰かが提供できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.