タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

5
Coxの2つのルールからP(C | A + B)を導出する
私はETジェインズの本の確率論-科学の論理-を通して自分のやり方(自習)をしています 元の問題 演習2.1では、「[式類似した一般式を見つけることはできますか ]積と合計のルールから。そうである場合はそれを導き出し、そうでない場合は、これを実行できない理由を説明してください。」p (C| A+B)p(C|A+B)p(C|A+B)p (A + B | C)= p (A | C)+ p (B | C)− p (A B | C)p(A+B|C)=p(A|C)+p(B|C)−p(AB|C)p(A+B|C)=p(A|C)+p(B|C)-p(AB|C) ギブンズ 私が使用しなければならないルールは次のとおりです。 p (A B | C)= p (A | C)p (B | A C)= p (B | C)p (A | B C)p(AB|C)=p(A|C)p(B|AC)=p(B|C)p(A|BC)p(AB | C) = …

3
ベイジアンABテスト
1か月あたりのアクセス数が5,000回しかないページでABテストを実行しています。テストとコントロール間の+ -1%の差を測定するために必要なトラフィックレベルに到達するには、時間がかかりすぎます。ベイジアン統計を使用して、テストの成績が良かったかどうかを判断できる可能性があると聞きました。ベイジアン統計を使用して現在のデータを分析するにはどうすればよいですか? Visitors Conversions Control 1345 1165 Test A 961 298 Test B 1274 438

2
ベイズ統計におけるパラメーターを確率変数として理解する
私が正しく理解していれば、ベイズ統計では、パラメーターは確率変数です。パラメータを推定するとき、事前分布とデータを組み合わせて事後分布を作成します。 質問: (サンプルおよび母集団内の)すべてのデータポイントは、パラメーターの同じ実現によって生成されますか? はいの場合、なぜパラメーターの分布(つまり、他の可能な実現とそれらのそれぞれの確率質量または確率密度値)を気にするのですか?結局のところ、私はサンプルと以前のサンプルからこの特定の母集団について何かを見つけようとしています。 そうでない場合、ベイジアンパラメーター推定の式に、どのように反映されますか? 同時に、当初の信念(以前に反映されたもの)でも更新されたもの(事後に反映されたもの)も私の分布には分布が含まれていることを理解しています。問題はありません。しかし、パラメーター自体が確率変数であると仮定する必要があるのか​​どうか、なぜでしょうか。 編集:役立ついくつかの回答を受け取りましたが、もっと重要な別の回答をいくつか感謝します。
9 bayesian 

2
確率的プログラミングと「従来の」ML
私はPymcのgithubリポジトリを閲覧していて、このノートブックを見つけました。 変分推論:ベイジアンニューラルネットワーク 著者は、ベイジアン/確率的プログラミングの長所を称賛しますが、次に続けます: 残念ながら、分類や(非線形)回帰などの従来のML問題の場合、確率的プログラミングは、アンサンブル学習などのよりアルゴリズム的なアプローチ(ランダムフォレストや勾配ブースト回帰ツリーなど)に対して(精度とスケーラビリティに関して)2番目のフィドルを実行することがよくあります。 。 誰かが説明してください: このステートメントが一般的に当てはまる場合 このステートメントが真実である理由

2
ベイズリスクを理解する
推定量を評価する場合、おそらく最も一般的に使用される2つの基準は、最大リスクとベイズリスクです。私の質問は後者についてです: 以前のベイズリスク ππ\pi は次のように定義されます。 Bπ(θ^)=∫R(θ,θ^)π(θ)dθBπ(θ^)=∫R(θ,θ^)π(θ)dθB_{\pi} (\hat{\theta}) = \int R(\theta, \hat{\theta} ) \pi ( \theta ) d \theta 以前のが何をしているか、そしてそれをどのように解釈すべきか、私にはまったくわかりません。リスク関数あり、それをプロットする場合、直感的には、その領域を基準として、考えられるすべての値に対するリスクが「強い」かどうかを判断します。しかし、それは近いものの、以前のものを含むことは、この直観を再び破壊します。誰かが前のものを解釈する方法を手伝ってくれる?ππ\piR(θ,θ^)R(θ,θ^)R(\theta, \hat{\theta} )θθ\theta

1
エラスティックネットを書く正しい方法は何ですか?
エラスティックネットの正しい記述方法について混乱しています。いくつかの研究論文を読んだ後、3つの形があるようです 1)exp{ - λ1| βk| - λ2β2k}exp⁡{−λ1|βk|−λ2βk2}\exp\{-\lambda_1|\beta_k|-\lambda_2\beta_k^2\} 2)exp{ − (λ1| βk| + λ2β2k)σ2√}exp⁡{−(λ1|βk|+λ2βk2)σ2}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{\sqrt{\sigma^2}}\} 3)exp{ − (λ1| βk| + λ2β2k)2つのσ2}exp⁡{−(λ1|βk|+λ2βk2)2σ2}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{2\sigma^2}\} を追加する正しい方法がわかりません。上記の表現のいずれかが正しいですか?σ2σ2\sigma^2

2
交換可能なRVの製品は交換可能ですか?
仮定するおよびは、コンポーネントとしてバイナリRVを持つ2つのランダム変数です(したがって、)と両方(および)は交換可能です。つまり、X=(X1,...,Xn),:(Ω,A,P)→({0,1}n,2{0,1}n)X=(X1,...,Xn),:(Ω,A,P)→({0,1}n,2{0,1}n)X=(X_1, ..., X_n),: (\Omega, A,P)\to (\{0,1\}^n, 2^{{\{0,1\}}^n})Y=(Y1,...,Yn):(Ω,A,P)→({0,1}n,2{0,1}n)Y=(Y1,...,Yn):(Ω,A,P)→({0,1}n,2{0,1}n)Y=(Y_1, ..., Y_n):(\Omega, A,P)\to (\{0,1\}^n, 2^{{\{0,1\}}^n})Xi(ω)∈{0,1},Yi(ω)∈{0,1}Xi(ω)∈{0,1},Yi(ω)∈{0,1}X_i(\omega)\in\{0,1\}, Y_i(\omega) \in \{0,1\}XXXYYYP((X1,...,Xn)=(x1,...,xn))=P((Xσ(1),...,Xσ(n))=(x1,...,xn))P((X1,...,Xn)=(x1,...,xn))=P((Xσ(1),...,Xσ(n))=(x1,...,xn))P((X_1, ..., X_n)=(x_1, ..., x_n))= P((X_{\sigma(1)}, ..., X_{\sigma(n)})=(x_1, ..., x_n)) そして P((Y1,...,Yn)=(y1,...,yn))=P((Yσ(1),...,Yσ(n))=(y1,...,yn))P((Y1,...,Yn)=(y1,...,yn))=P((Yσ(1),...,Yσ(n))=(y1,...,yn))P((Y_1, ..., Y_n)=(y_1, ..., y_n))= P((Y_{\sigma(1)}, ..., Y_{\sigma(n)})=(y_1, ..., y_n))すべての順列。σσ\sigma 私の質問は、が交換可能であるかどうかです。Z=(X1Y1,...,XnYn)Z=(X1Y1,...,XnYn)Z=(X_1Y_1, ..., X_nY_n) あるいは、を交換可能にするために必要な仮定はどのように異なるのか?ZZZ

1
非ガウスノイズのベイズ最適化
ブラックボックス関数、ガウスノイズの影響を受けて点ごとに評価されます。つまり、は、ガウスプロセスがノイズの多い関数モデルとして使用されるベイジアン最適化を使用して最小化できます。 f (x )+ N(μ (x )、σ (x )2)f:Rん→ Rf:Rn→Rf: \mathbb{R}^n \rightarrow \mathbb{R}f(x )+ N(μ (x )、σ(x )2)f(x)+N(μ(x),σ(x)2)f(x) + \mathcal{N}(\mu(x),\sigma(x)^2) ベイズ最適化は、歪んだ分布など、非ガウスノイズの影響を受ける関数にどのように使用できますか? この設定をサポートする実装はありますか?

1
薄板平滑化スプラインの確率論的解釈
TLDR:薄板回帰スプラインには確率的/ベイズ的解釈がありますか? 入力-出力ペア所与の(xi,yi)(xi,yi)(x_i,y_i)、i=1,...,ni=1,...,ni=1,...,n ; Iは、関数推定するf(⋅)f(⋅)f(\cdot)としては、下記の f(x)≈u(x)=ϕ(xi)Tβ+∑i=1nαik(x,xi),f(x)≈u(x)=ϕ(xi)Tβ+∑i=1nαik(x,xi),\begin{equation}f(x)\approx u(x)=\phi(x_i)^T\beta +\sum_{i=1}^n \alpha_i k(x,x_i),\end{equation}k(⋅,⋅)k(⋅,⋅)k(\cdot,\cdot)ϕ(xi)ϕ(xi)\phi(x_i)m&lt;nm&lt;nm<nαiαi\alpha_iβiβi\beta_iminα∈Rn,β∈Rm1n∥Y−Φβ−Kα∥2Rn+λαTKα,minα∈Rn,β∈Rm1n‖Y−Φβ−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n},\beta \in R^{m}}{\frac {1}{n}}\|Y-\Phi\beta -K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}ΦΦ\Phiϕ(xi)Tϕ(xi)T\phi(x_i)^Ti,ji,ji,jKKKk(xi,xj)k(xi,xj){\displaystyle k(x_{i},x_{j})} α∗=λ−1(I+λ−1K)−1(Y−Φβ∗)α∗=λ−1(I+λ−1K)−1(Y−Φβ∗)\begin{equation} \alpha^*=\lambda^{-1}(I+\lambda^{-1}K)^{-1}(Y-\Phi\beta^*) \end{equation} \ begin {式} \ beta ^ * = \ {\ Phi ^ T(I + \ lambda ^ {-1} K)^ {-1} \ Phi \} ^ {-1} \ Phi ^ …

1
MAPがMLEに収束するのはなぜですか?
ケビンマーフィーの「機械学習:確率論的視点」の3.2章では、著者は「数値ゲーム」と呼ばれる例でベイズの概念学習を示していからサンプルを観察した後、サンプルを生成したルールを最もよく表す仮説を選びます。たとえば、「偶数」または「素数」。{ 1 、。。。、100 } 時間NNN{ 1 、。。。、100 }{1、。。。、100}\{1,...,100\}hhh 最大事後推定と最尤推定は次のように定義されます。 h^M A P= arg最高h p (D | h )p (h )= arg最高h[ ログp (D | h )+ ログp (h )] 、h^MあP=arg⁡最高h p(D|h)p(h)=arg⁡最高h[ログ⁡p(D|h)+ログ⁡p(h)]、\hat h_\mathrm{MAP}={\arg\max}_h\ p(\mathcal{D}|h)p(h)={\arg\max}_h[\log p(\mathcal{D}|h)+\log p(h)], h^M L E= arg最高h p (D | h )= arg最高hログp (D | h )、h^MLE=arg⁡最高h p(D|h)=arg⁡最高hログ⁡p(D|h)、\hat …

2
ベイジアン階層型一般化線形モデルでの特徴選択
私は階層的なGLMを推定しようとしていますが、どの共変量を母集団レベルで含めるかを決定するための機能を選択しています。 観測値と可能な共変量を持つグループがあるとします。つまり、共変量\ boldsymbol {x} _ {(N \ cdot G)\ times K}、結果\ boldsymbol {y} _ {(N \ cdot G)\ times 1}。これらの共変量の係数は\ beta_ {K \ times 1}です。GGGNNNKKKx(N⋅G)×Kx(N⋅G)×K\boldsymbol{x}_{(N\cdot G) \times K}y(N⋅G)×1y(N⋅G)×1\boldsymbol{y}_{(N\cdot G) \times 1}βK×1βK×1\beta_{K \times 1} 仮定YYY〜Bernoulli(p(x,β))Bernoulli(p(x,β))Bernoulli(p(x,\beta)) 以下は、ロジットサンプリングモデルと正規分布グループ係数を使用した標準的な階層型ベイジアンGLMです。 L(y|x,β1,...βG)∝∏g=1G∏t=1N(Pr{j=1|pt,βg})yg,t(1−Pr{j=1|pt,βg})1−yg,tL(y|x,β1,...βG)∝∏g=1G∏t=1N(Pr{j=1|pt,βg})yg,t(1−Pr{j=1|pt,βg})1−yg,t{\cal L}\left(\boldsymbol{y}|\boldsymbol{x},\beta_{1},...\beta_{G}\right)\propto\prod_{g=1}^{G}\prod_{t=1}^{N}\left(\Pr\{j=1|p_{t},\beta^{g}\}\right)^{y_{g,t}}\left(1-\Pr\{j=1|p_{t},\beta^{g}\}\right)^{1-y_{g,t}} β1,...βG|μ,Σ∼iidNd(μ,Σ)β1,...βG|μ,Σ∼iidNd(μ,Σ)\beta_{1},...\beta_{G}|\mu,\Sigma\sim^{iid}{\cal N}_{d}\left(\mu,\Sigma\right) μ|Σ∼N(μ0,a−1Σ)μ|Σ∼N(μ0,a−1Σ)\mu|\Sigma\sim{\cal N}\left(\mu_{0},a^{-1}\Sigma\right) Σ∼IW(v0,V−10)Σ∼IW(v0,V0−1)\Sigma\sim{\cal IW}\left(v_{0},V_{0}^{-1}\right) \ betaの次元数に(LASSOのように)鋭い特徴選択があるように、このモデルを変更(またはそれを実行するか、それを説明する作業を見つける)したいと思いββ\betaます。 (1)最も単純な最も直接的な方法は、母集団レベルでこれを正則化して、の次元数を本質的に制限し、すべてのが同じ次元になるようにすることです。μμ\muββ\beta (2)より微妙なモデルでは、グループレベルで収縮が発生し、次元は階層単位に依存します。ββ\beta 1と2を解くことに興味がありますが、もっと重要なのは1です。

3
ベイジアンの頻出統計の紹介[終了]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。 私はベイズの居心地の良い世界で快適に感じる単純な心のベイズ人です。 しかし、私の手に負えない悪意のある力のために、今度はエキゾチックで奇妙な頻出統計の世界について、入門的な大学院コースを行わなければなりません。これらの概念のいくつかは私には非常に奇妙に思えます、そして私の教師はベイズに精通していないので、私は両方を理解している人からインターネットでいくつかの助けを得ると思いました。 頻度主義が奇妙で不快であると思うベイジアンに、頻度主義統計のさまざまな概念をどのように説明しますか? たとえば、私がすでに理解しているいくつかのこと: 最尤推定量、最大事後推定に等しい、場合はフラットです。ARGMAX θargmaxθp(D|θ)argmaxθp(D|θ)\text{argmax}_\theta \;p(D|\theta)p (θ )argmaxθp(θ|D)argmaxθp(θ|D)\text{argmax}_\theta \;p(\theta |D)p(θ)p(θ)p(\theta) (これについては完全にはわかりません)。特定の推定量がパラメーターに対して十分な統計量であり、がフラットな場合、、つまり、サンプリング分布は尤度関数に等しいため、フラットな事前分布を与えられたパラメーターの事後に等しくなります。 θP(θ)P( θ |θ)=C1⋅P(D|θ)=C1⋅C2⋅P(θ|D)θ^θ^\hat \thetaθθ\thetap(θ)p(θ)p(\theta)p(θ^|θ)=c1⋅p(D|θ)=c1⋅c2⋅p(θ|D)p(θ^|θ)=c1⋅p(D|θ)=c1⋅c2⋅p(θ|D)p(\hat \theta|\theta)=c_1\cdot p(D|\theta)=c_1\cdot c_2\cdot p(\theta|D) これらは、ベイジアンの概念を理解している人に頻出主義の概念を説明する例です。 ベイジアンが理解できる用語で、頻度論統計の他の中心的な概念を同様にどのように説明しますか? 具体的には、次の質問に興味があります。 平均二乗誤差の役割は何ですか?ベイジアン損失関数とどのように関連していますか? 「偏りがない」という基準は、ベイズの基準とどのように関連していますか?私は、ベイジアンがその推定量が公平であることを要求しないであろうことを知っているが、同時に、ベイズはおそらく、公平なことを同意するだろうfrequentist推定器は、一般的に偏っよりも望ましいfrequentist彼は両方が劣るためであると考えるでしょうにもかかわらず、(1ベイジアン推定量)。では、ベイジアンはどのようにして公平さを理解するのでしょうか? フラットな事前分布がある場合、頻度主義の信頼区間はベイズの信頼区間と何らかの形で一致しますか? テストのような仕様テストでラプラスの名の下に何が起こっていますか?これは、モデル空間の分布に関するベイジアン更新のいくつかの退化した特別なケースですか?FFF より一般的には: ベイジアンに頻出を説明するリソースはありますか?ほとんどの本は逆に走っています:彼らはベイジアン主義を頻出統計学で経験された人々に説明しています。 ps。私は見てきましたが、ベイジアンとフリークエンシーの違いについてはすでに多くの質問がありますが、ベイジアンの観点からフリークエンシーを明確に説明しているものはありません。 この質問は関連していますが、ベイジアンに頻度論の概念を説明することについては特にではありません(頻度論的思考を正当化することについての一般的な説明については)。 また、私の論点は、頻出を非難することではありません。本当によく理解したい

1
新しい情報をディリクレ事前配布に組み込むにはどうすればよいですか?
私の問題はこれです。私は、それぞれが一連のクラスにわたって分布を生成する予測子のアンサンブルを持っています。 私がやりたいことは、最初にこのラベル分布がどのように見えるかについて非情報的な前もってあり、次にアンサンブルの各メンバーの予測でそれを更新することです。 そのため、以前は情報量の少ないディリクレを使用することを考え、それを予測として得られる各サンプル分布で更新しました。 私の質問は次のとおりです。このアプローチは有効ですか。そうである場合、以前のサンプルをどのように更新すれば、より多くのサンプルが蓄積されるので、より明確になりますか?

2
深層学習に対するベイズのノンパラメトリックな答えは?
私が理解しているように、ディープニューラルネットワークは、機能を重ねることによって「表現学習」を実行しています。これにより、フィーチャの非常に高次元の構造を学習できます。もちろん、これはパラメーターの数が固定されたパラメトリックモデルであるため、モデルの複雑さを調整するのが難しいという通常の制限があります。 モデルの複雑さがデータに適応できるように、特徴空間でそのような構造を学習するベイジアン(ノンパラメトリック)な方法はありますか?関連モデルは次のとおりです。 ディリクレは混合モデルを処理します。これにより、スペースを無制限のクラスターに分割し、データが有限数を選択できるようにします。 データを説明する潜在的な特徴(別名トピック)の潜在的に無限の数を見つけるインディアンビュッフェプロセス(IBP)のような要因モデル。 しかし、IBPは深い表現を学習していないようです。これらの方法は教師なし学習用に設計されており、通常、教師付きタスクにはディープラーニングを使用するという問題もあります。データの要求に応じて表現を拡大できるIBPまたは他のメソッドのバリアントはありますか?

2
ベイジアン事後確率のキャリブレーションをチェックするシミュレーションアルゴリズムの設定
何かをシミュレートする方法を理解することは、多くの場合、基本的な原理を理解するための最良の方法です。以下を正確にシミュレートする方法について、私は少し途方に暮れています。 仮定するとそのである事前分布有し。観測値サンプルに基づいて、単にと省略し、事後確率であることを非ベイジアンに示しは適切に調整されています。たとえば、Probここで、は事後確率です。関連ディスカッションはこちらμ N (γ 、τ 2)nはY 1、... 、Y N Y μ &gt; 0 | Y (μ &gt; 0 | P )= P PY∼N(μ,σ2)Y∼N(μ,σ2)Y \sim N(\mu, \sigma^{2})μμ\muN(γ,τ2)N(γ,τ2)N(\gamma, \tau^{2})nnnY1,…,YnY1,…,YnY_{1}, \dots, Y_{n}YYYμ&gt;0|Yμ&gt;0|Y\mu > 0 | Y(μ&gt;0|P)=P(μ&gt;0|P)=P(\mu > 0 | P) = PPPP 私が本当に示したいのは、事後確率が0.95などのレベルを超えたときに連続テストを行ってサンプリングを停止した場合、確率がはないということです。&lt; 0.95μ&gt;0μ&gt;0\mu > 0&lt;0.95&lt;0.95< 0.95 私は、タイプ1のエラーについての議論に踏み込むことなく、ベイジアン確率が意味があることを常連論者に説得しようとしています。帰無仮説を楽しませる常連客と話をするときに哲学上の問題があると思います。事前分布が(上記のように)連続である場合、ある確率はゼロであり、シミュレーションは不要です。問題全体をどのように考え、デモンストレーションシミュレーションを設計する方法についていくつかの提案をいただければ幸いです。私は、が1つの定数に設定されているだけで、なシミュレーションを行うことに慣れています。ベイジアンは条件付けません。μ μμ=0μ=0\mu = 0μμ\muμμ\mu 順次の状況では、可能な最大サンプルサイズを設定します(例:。n=1000n=1000n=1000 私がいつも考えるのに苦労している問題には微妙な問題があります。プロセスが実際にまったく効果がない()場合、本当の懐疑論者は、有効性の誤った主張()を心配することがあります。微妙なのは、懐疑論者が特別な値としてゼロを「単一化」していることであり、おそらくイベント(?)にゼロ以外の確率を与えています。事後者が調整されていることを示す方法では、懐疑者は実際に条件付けを行いたいと考えているため、ベイジアンとしては何がわかっているかでのみ条件付けを行うため、このような懐疑者を満足させることはできません。おそらくこれは、統計家が使用している事前分布が、懐疑論者が使用している不連続な事前分布と矛盾する場合でしょうか?μ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.