タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
トーマス・ベイズがベイズの定理をそれほど難しいと思ったのはなぜですか?
これは科学の歴史の問題の詳細ですが、ここで話題になっているといいのですが。 トーマスベイズは、以前のユニフォームの特別な場合のベイズの定理しか見つけられなかったと私は読んだことがあり、それでも彼はそれに苦労していたようです。 一般的なベイズの定理が現代の扱いでどれほど些細なことかを考えると、なぜそれが当時ベイズや他の数学者に挑戦をもたらしたのでしょうか?比較のために、アイザックニュートンのフィロソフィアナチュラリスプリンシピアマテマチカは、ベイズの主要な作品の36年前に出版されました。

4
最尤推定(MLE)とベイズの定理の比較
ベイジアン定理では、であり、私が読んでいる本から、は可能性が、私はそれだけだと仮定条件付き確率の与えられた、右? p(x|y)xyp (y|x)=p(x|y)p(y)p(x)p(y|x)=p(x|y)p(y)p(x)p(y|x) = \frac{p(x|y)p(y)}{p(x)}p(x|y)p(x|y)p(x|y)xxxyyy 最尤推定最大化しようとし権利を、?もしそうなら、私はひどく混乱しています、は両方ともランダム変数ですから?を最大化するには、を見つけるだけです。もう1つの問題、これらの2つの確率変数が独立している場合、はだけですよね?次に、を最大化すると、最大化されます。X 、Y 、P (X | Y )Y P (X | Y )P (X )P (X | Y )P (X )p(x|y)p(x|y)p(x|y)x,yx,yx,yp(x|y)p(x|y)p(x|y) y^y^\hat yp(x|y)p(x|y)p(x|y)p (x)p(x)p(x)p(x|y)p(x|y)p(x|y)p (x)p(x)p(x) あるいは、はいくつかのパラメータ関数、つまりであり、MLEは最大化できるを見つけようとしますか?または、が実際にはランダム変数ではなくモデルのパラメーターであっても、可能性を最大化するには?θ P (X | Y 、θ )θ P (X | Y )Y Yp(x|y)p(x|y)p(x|y)θθ\thetap(x|y; θ)p(x|y;θ)p(x|y; \theta)θθ\thetap(x|y)p(x|y)p(x|y)yyyy^y^\hat y 更新 私は機械学習の初心者です。この問題は、機械学習のチュートリアルで読んだものと混同しています。ここでは、観測されたデータセット与えられた場合、ターゲット値はであり、このデータセットにモデルを適合させようとしますなので、与えられた場合、はによってパラメーター化されたという名前の分布の形式、つまりを持ち、これは事後確率であると思いますか?、{ Y 1、Y 2、。。。、Y …

1
ロジスティック回帰モデルの操作
次のコードが何をしているかを理解したいと思います。コードを書いた人はここではもう働かず、ほとんど完全に文書化されていません。私は「考えて誰かにそれを調査するように頼まれたことは、ベイズロジスティック回帰モデルです」 bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- 1/(1 + exp(-(X %*% betastar))) …

5
独立変数を標準化すると共線性が低下しますか?
私はベイズ/ MCMCで非常に良いテキストに出くわしました。ITは、独立変数の標準化によってMCMC(メトロポリス)アルゴリズムがより効率的になることを示唆していますが、(マルチ)共線性を低下させる可能性もあります。それは本当ですか?これは私が標準としてやるべきことです(申し訳ありません)。 Kruschke 2011、ベイズデータ分析の実施。(AP) 編集:たとえば > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.6187113 0.3489766 sample estimates: cor -0.1774206 > standardise <- function(x) {(x-mean(x))/sd(x)} …

1
列車待ち時間のベイズモデリング:モデル定義
これは、常連のキャンプから来た誰かがベイジアンデータ分析を行うための私の最初の試みです。A. GelmanによるBayesian Data Analysisからいくつかのチュートリアルといくつかの章を読みました。 最初に多かれ少なかれ独立したデータ分析の例として選択したのは、列車の待ち時間です。私は自分自身に尋ねました:待ち時間の分布は何ですか? データセットはブログで提供され、PyMCの外部とは少し異なって分析されました。 私の目標は、これらの19のデータエントリから、予想される列車の待ち時間を見積もることです。 私が作成したモデルは次のとおりです。 μ 〜N(μ^、σ^)μ∼N(μ^,σ^)\mu \sim N(\hat\mu,\hat\sigma) σ〜| N(0 、σ^)|σ∼|N(0,σ^)|\sigma \sim |N(0,\hat\sigma)| λ 〜Γ (μ 、σ)λ∼Γ(μ,σ)\lambda \sim \Gamma(\mu,\sigma) ρ 〜Po i s s o n (λ )ρ∼Poisson(λ)\rho \sim Poisson(\lambda) どこμは、データが意味され、σは 1000年を掛けたデータの標準偏差です。μ^μ^\hat\muσ^σ^\hat\sigma ρρ\rhoμμ\muσσ\sigmaσσ\sigma たくさん質問があります このモデルはタスクに適していますか(モデルを作成する方法はいくつかありますか?)? 私は初心者の間違いをしましたか? モデルを簡略化できますか(私は単純なものを複雑にする傾向があります)? ρρ\rho フィッティングされたポアソン分布からいくつかのサンプルを描画して、サンプルを表示するにはどうすればよいですか? 5000メトロポリスのステップの後の事後は、次のようになります。 μμ\muσσ\sigmaρρ\rho より確率的なプログラミングを理解するのに役立つコメントやコメントに感謝します。試してみる価値のあるもっと古典的な例があるかもしれませんか? これが、PyMC3を使用してPythonで記述したコードです。データファイルはここにあります。 import matplotlib.pyplot as …
12 bayesian  pymc 

3
平均と分散が不明な正規分布のJeffreys Prior
私は以前の分布を調べており、平均と未知の分散が不明な正規分布確率変数のサンプルについて、ジェフリーズを事前に計算しました。私の計算によると、以前のジェフリーズは次のようになっています: ここで、はフィッシャーの情報行列です。p(μ,σ2)=det(I)−−−−−√=det(1/σ2001/(2σ4))−−−−−−−−−−−−−−−−−−√=12σ6−−−−√∝1σ3.p(μ,σ2)=det(I)=det(1/σ2001/(2σ4))=12σ6∝1σ3. p(\mu,\sigma^2)=\sqrt{det(I)}=\sqrt{det\begin{pmatrix}1/\sigma^2 & 0 \\ 0 & 1/(2\sigma^4)\end{pmatrix}}=\sqrt{\frac{1}{2\sigma^6}}\propto\frac{1}{\sigma^3}.III しかし、私は出版物や、 p(μ,σ2)∝1/σ2p(μ,σ2)∝1/σ2p(\mu,\sigma^2)\propto 1/\sigma^2 Kass and Wassermann(1996)のセクション2.2を参照してください。 p(μ,σ2)∝1/σ4p(μ,σ2)∝1/σ4p(\mu,\sigma^2)\propto 1/\sigma^4 Yang and Berger(1998)の 25ページを参照 未知の平均と分散を持つ正規分布の場合のJeffreys事前として。以前の「実際の」ジェフリーズとは何ですか?

2
ベイジアンモデル平均化(BMA)の利点を示す簡単な例
私はベイジアンモデルアベレージング(BMA)アプローチを研究に組み込んでおり、同僚に私の仕事についてのプレゼンテーションをすぐに行います。しかし、BMAは私の分野ではそれほど有名ではありません。そのため、すべての理論を提示し、実際に問題に適用する前に、BMAが機能する理由について、簡単でありながら有益な例を紹介します。 2つのモデルから選択できる簡単な例を考えていましたが、真のデータ生成モデル(DGM)はその中間にあり、証拠はそれらのいずれかを実際に支持していません。そのため、いずれかを選択して続行すると、モデルの不確実性を無視してエラーが発生しますが、BMAでは、真のモデルはモデルセットの一部ではありませんが、少なくとも対象のパラメーターの正しい事後密度が得られます。たとえば、毎日2つの天気予報(AとB)があり、1つは天気を最もよく予測したいので、古典的な統計では、最初に2つの天気予報を見つけようとしますが、真実がその中間にある場合はどうでしょうか。 (つまり、Aが正しいこともあれば、Bが正しいこともあります)。しかし、私はそれを形式化することができませんでした。そのようなものですが、私はアイデアに非常にオープンです。この質問が具体的であることを願っています! 文献では、これまでに読んだものから良い例を見つけていません。 Kruschke(2011)はベイジアン統計の優れた入門書ですが、BMAにはあまり焦点を当てていません。彼が第4章で持っているコイントスの例は、ベイジアン統計の導入には最適ですが、他の研究者にBMAを使用するように説得しません。(「なぜ私は3つのモデルを持っているのですか、1つはコインが公正で、2つはどちらかの方向に偏っているということですか?」) 私が読んだ他のすべてのもの(Koop 2003、Koop / Poirier / Tobias(2007)、Hoeting et al。(1999)、その他多数)は素晴らしい参考文献ですが、簡単なおもちゃの例は見つかりませんでした。 しかし、多分私はここで良い情報源を逃しただけです。 それで、誰かがBMAを導入するために使用する良い例がありますか?多分それは非常に有益だと思うので、可能性と事後者を示すことによってさえ多分。

3
ベイズ係数とp値に使用されるカットオフがなぜそれほど異なるのですか?
ベイズファクター(BF)を理解しようとしています。2つの仮説の尤度比のようなものだと思います。したがって、BFが5の場合、これはH1がH0の5倍可能性が高いことを意味します。また、3〜10の値は中程度の証拠を示し、10を超える値は強い証拠を示します。 ただし、P値の場合、伝統的に0.05がカットオフとして使用されます。このP値では、H1 / H0の尤度比は約95/5または19になります。 それでは、BFに対して3を超えるカットオフが採用され、P値に対して19を超えるカットオフが採用されるのはなぜですか?これらの値もどこにも近くありません。

5
信頼区間は役に立ちますか?
頻出統計では、95%信頼区間は、時間を生成する手順であり、無限の回数を繰り返すと、95%の時間で真のパラメーターが含まれます。なぜこれが便利なのですか? 信頼区間はしばしば誤解されます。これらは、パラメーターが含まれていることを95%確実にすることができる間隔ではありません(同様のベイズ信頼性間隔を使用している場合を除く)。信頼区間は、私にとって餌とスイッチのように感じます。 私が考えることができる1つの使用例は、パラメーターがその値であるという帰無仮説を棄却できなかった値の範囲を提供することです。p値はこの情報を提供しませんか?それほど誤解を招くことなく、 つまり、信頼区間が必要なのはなぜですか?正しく解釈すると、それらはどのように役立ちますか?

2
適切な事前および指数化された可能性は、不適切な事後につながる可能性がありますか?
(この質問は西安からのこのコメントに触発されています。) 事前分布が適切で、尤度が明確である場合、事後分布はほぼ確実に適切です。π(θ)π(θ)\pi(\theta)L(θ|x)L(θ|x)L(\theta | x)π(θ|x)∝π(θ)L(θ|x)π(θ|x)∝π(θ)L(θ|x)\pi(\theta|x)\propto \pi(\theta) L(\theta|x) 場合によっては、代わりに、調整された、または指数化された尤度を使用して、疑似事後 π~(θ|x)∝π(θ)L(θ|x)απ~(θ|x)∝π(θ)L(θ|x)α\tilde\pi(\theta|x)\propto \pi(\theta) L(\theta|x)^\alpha for(たとえば、これには計算上の利点があります)。α>0α>0\alpha>0 この設定では、適切な事前確率を持つことは可能ですが、疑似事後は不適切ですか?

5
情報を借りるとはどういう意味ですか?
ベイジアン階層モデルでの情報の借用や情報の共有についてよく話します。これが実際に何を意味するのか、そしてそれがベイジアン階層モデルに固有のものであるのかどうかについて、正直な答えを得ることができないようです。私はある種のアイデアを得ました。階層内のいくつかのレベルは共通のパラメーターを共有しています。しかし、これが「情報の借用」にどのように変換されるのかはわかりません。 「情報を借りる」/「情報を共有する」という言葉は人々が捨てたいと思う流行語ですか? この共有現象を説明する、閉じた形式の後継者の例はありますか? これはベイジアン分析に固有のものですか?一般に、「情報の借用」の例を見ると、それらは単なる混合モデルです。たぶん私は昔ながらの方法でこのモデルを学びました、しかし私はどんな共有も見ません。 私は方法についての哲学的議論を始めることに興味はありません。この用語の使用に興味があります。

2
ベイズ推定量は選択バイアスの影響を受けない
ベイズ推定量は選択バイアスの影響を受けませんか? 高次元での推定について論じているほとんどの論文、例えば全ゲノム配列データは、しばしば選択バイアスの問題を提起します。選択バイアスは、何千もの潜在的な予測子があるにもかかわらず、選択されるのはごくわずかであり、選択されたいくつかに対して推論が行われるという事実から生じます。したがって、プロセスは2つのステップで行われます。(1)予測子のサブセットを選択します。(2)選択セットに対して推論を実行します。たとえば、オッズ比を推定します。Dawidは、1994年のパラドックスペーパーで、不偏推定量とベイズ推定量に焦点を当てました。彼は問題を単純化して、治療効果かもしれない最大の効果を選択する。 次に、公平な推定者は選択バイアスの影響を受けると彼は言います。彼は例を使用しました: 次にZi∼N(δi,1),i=1,…,NZi∼N(δi,1),i=1,…,N Z_i\sim N(\delta_i,1),\quad i=1,\ldots,N ZiZiZ_iはに対してバイアスされ。ましょう 、推定 (但し付勢されているが確かに)\ max \ {\ delta_1、\ delta_2、\ ldots、\ delta_N \}の場合。このステートメントは、ジェンセンの不等式で簡単に証明できます。私たちは知っていたならばそのため、私は_ {\最大}、最大のインデックス\ delta_iは、我々だけで使用するZ_を{I _ {\最大}}公平であるその推定量として。しかし、これがわからないため、代わりに(積極的に)バイアスされる\ gamma_1(\ mathbf {Z})を使用します。δiδi\delta_iZ=(Z1,Z2,…,ZN)TZ=(Z1,Z2,…,ZN)T\mathbf{Z}=(Z_1,Z_2,\ldots,Z_N)^Tγ1(Z)=max{Z1,Z2,…,ZN}γ1(Z)=max{Z1,Z2,…,ZN} \gamma_1(\mathbf{Z})=\max\{Z_1,Z_2,\ldots,Z_N\} max{δ1,δ2,…,δN}max{δ1,δ2,…,δN}\max\{\delta_1,\delta_2,\ldots,\delta_N\}imaximaxi_{\max}δiδi\delta_iZimaxZimaxZ_{i_{\max}}γ1(Z)γ1(Z)\gamma_1(\mathbf{Z}) しかし、Dawid、Efron、および他の著者の懸念事項は、ベイズの推定者は選択バイアスの影響を受けないということです。を優先する場合、たとえば、ベイズ推定量はによって与えられ ここで、、は標準ガウスです。δiδi\delta_iδi∼g(.)δi∼g(.)\delta_i\sim g(.)δiδi\delta_iE{δi∣Zi}=zi+ddzim(zi)E{δi∣Zi}=zi+ddzim(zi) \text{E}\{\delta_i\mid Z_i\}=z_i+\frac{d}{dz_i}m(z_i) m(zi)=∫φ(zi−δi)g(δi)dδim(zi)=∫φ(zi−δi)g(δi)dδim(z_i)=\int \varphi(z_i-\delta_i)g(\delta_i)d\delta_iφ(.)φ(.)\varphi(.) 私たちは、新しい推定定義する場合はとして 何でもあなたが推定するのに選択しとは、選択がに基づいていた場合 と同じなります。これは、がで単調であるです。我々はまた、知っている shrinkes用語とゼロに向かって、δimaxδimax\delta_{i_{\max}}γ2(Z)=max{E{δ1∣Z1},E{δ2∣Z2},…,E{δN∣ZN}},γ2(Z)=max{E{δ1∣Z1},E{δ2∣Z2},…,E{δN∣ZN}}, \gamma_2(\mathbf{Z})=\max\{\text{E}\{\delta_1\mid Z_1\},\text{E}\{\delta_2\mid Z_2\},\ldots,\text{E}\{\delta_N\mid Z_N\}\}, iiiδimaxδimax\delta_{i_{\max}}γ1(Z)γ1(Z)\gamma_1(\mathbf{Z})iiiγ2(Z)γ2(Z)\gamma_2(\mathbf{Z})γ2(Z)γ2(Z)\gamma_2(\mathbf{Z})ZiZiZ_iE{δi∣Zi}E{δi∣Zi}\text{E}\{\delta_i\mid Z_i\}ZiZiZ_iddzim(zi)ddzim(zi)\frac{d}{dz_i}m(z_i)これにより、の正のバイアスの一部が減少し。しかし、ベイズ推定量は選択バイアスの影響を受けないと結論付けるにはどうすればよいでしょうか。本当にわかりません。ZiZiZ_i

1
ベイジアンスパイクおよびスラブとペナルティ付きメソッド
私はBSTS Rパッケージに関するSteven Scottのスライドを読んでいます(ここで見つけることができます:スライド)。 ある時点で、構造的時系列モデルに多くのリグレッサを含めることについて話すとき、彼は回帰係数のスパイクとスラブの事前分布を導入し、それらはペナルティ付き手法と比較して優れていると述べています。 スコット氏は、100個の予測子を含むデータセットの例を参照します。 ペナルティ付きメソッドは、どの変数が含まれる/除外されるかについて単一の決定を行います。つまり、予測子の1つのサブセット、つまり可能なものの中から1つのモデルを決定します。210021002^{100} "なげなわ(および関連する)事前分布はスパースではなく、モードでスパース性を誘導しますが、事後分布では誘導しません" この時点で、彼はスパイクとスラブの事前分布を紹介します。 私は直感を得たと思いますが、それについて確認したいと思います。 それらは、基本的にブルートフォースアプローチを使用して、含めることができるリグレッサの各サブセットをテストするという意味で優れていますか? 欠点はそうすることで計算時間ですか? 「なげなわ(および関連)...事後分布ではない」と言うとき、彼は何を意味していると思いますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.