タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

1
メジャー0で発生する2つのイベントのベイジアン更新方法は?
私の意味を説明するために、次の架空のシナリオを検討してください。 人の好きな数は、無原子密度関数ランダムに分布されます。x∈[−1,1]バツ∈[−1、1]x\in[-1,1]f(x)f(バツ)f(x) さらに、この人が(自分の好きな数が何であるかを理解した後で)この好きな数の絶対値を呼び出すと仮定します。xバツx|x||バツ||x| オブザーバーとして、構造、つまり分布と人の行動を知っています。したがって、すると、その人の好きな数は0.5または-0.5であることがわかります。xバツx|x|=0.5|バツ|=0.5|x|=0.5 しかし、ベイジアン更新者として、あなたは何を信じるべきですか?人のお気に入りの数が0.5である確率あると考えるのは理にかなっていますか P[x=0.5||x|=0.5]=P[|x|=0.5|x=0.5]f(0.5)f(0.5)+f(−0.5)=f(0.5)f(0.5)+f(−0.5)?P[バツ=0.5||バツ|=0.5]=P[|バツ|=0.5|バツ=0.5]f(0.5)f(0.5)+f(−0.5)=f(0.5)f(0.5)+f(−0.5)?\mathbb{P}[x=0.5 \, |\, |x|=0.5]=\frac{\mathbb{P}[|x|=0.5 \,|\, x=0.5] \, f(0.5)}{f(0.5)+f(-0.5)}=\frac{ f(0.5)}{f(0.5)+f(-0.5)} ? あらゆる分布は、メジャー0のイベントの変化と(さまざまな意味で)同等であるため、私はそうは思わない。しかし、そのようなシナリオでは何をすべきですか? 私はそのような問題が経済理論(信号ゲーム)で発生するだろうと思ったでしょうが、私はこの問題を扱うリファレンスをまだ見つけていません(ここでの提案も大歓迎です)。

2
仮説検定なしの統計
Andrew Gelmanは彼のブログ投稿で、ベイジアン仮説検定のファンではない(ここを参照:http : //andrewgelman.com/2009/02/26/why_i_dont_like/)と述べています。また、フリークエンティスト仮説検定には欠点もあると述べています。 私の質問は次のとおりです。仮説検定(繰り返し申し訳ありません)についても、仮説検定を行わずに統計を実行して、意思決定を行うことはできますか?解決策は推定のみに依存し、推定確率に基づいて決定を下すことですか?もしそうなら、これについてどこで学ぶべきか指摘できますか?

1
古典的な感覚と主観的な感覚の両方の確率を同時に考えることはできますか?
私は統計学の学生です。私は、確率の古典的かつ客観的な定義と、それらが頻出主義およびベイズの推論とどのように関連しているかを理解しようとしています。なぜ古典確率が頻出推論と対になるのか、ベイズ推論が主観確率と対になるのかは私には明らかではありません。一部のソースでは、Wellekによるこのペーパーから次のようなステートメントを読みました(申し訳ありませんが、ペイウォールの背後にないバージョンは見つかりませんでした)。 頻度主義の観点から見ると、母集団パラメーターは、意味のある確率ステートメントを作成できない観測不可能な定数です。 これが繰り返し試行としての確率の古典的な定義によるのか、それとも頻出主義推論の制約によるのかを理解しようとしています。 私の特定の質問は、読者が先にスキップすることを好む場合は最後にありますが、それが役立つ場合に備えて私の考えを共有したいと思いました。 確率変数考えます。である確率を科学的に経験的に測定したい場合、古典的な確率の定義では、実験を何度も繰り返して集計する必要があると思います。主観的な定義から、私はまず自分自身の信念または合理的なエージェントの信念に相談することが期待されていると思います。私がより多くのデータを収集すると、それらの信念は合理的に変更されます。XXXP(X=x)P(X=x)P(X=x) 今では、は観測できないように思われるので、私の古典的な経験的手順で値を計算する方法はありません。対照的に、私はように直接観察できないものを常に信じることができるため、ように観察できるものとように観察できないものとの関係を知っていると仮定すると、これによって信念を持つことができます私は合理的に時間をかけて変更することができました。H0|XH0|XH_0|XP(H0|X)P(H0|X)P(H_0|X)H0|XH0|XH_0|XXXXH0H0H_0P(H0|X)P(H0|X)P(H_0|X) 私は、にとって、は宇宙の固定プロパティであると主張することもできます。そのため、たとえ観察できたとしても、は固定であるという考えに行き詰まっているかもしれません。しかし、コインを投げるという典型的な実験について考えて、それを変更して、私には大量のクォーターがあり、フリップを記録するたびに常に新しいものを使用すると言ったとしたらどうでしょう。したがって、その場合、基になるパラメーターがコイン固有であると思われますが、直接観察することはできません。したがって、は意味がありますが、を直接観察して計算することはできません。H0H0H_0H0H0H_0pppP(p=0.5|X)P(p=0.5|X)P(p=0.5|X)ppp だから私のハイレベルの質問に戻ります。 ベイジアン推論手順を頻出者として解釈する意味のある方法はありますか? 確率が確率の古典的な定義に従って定義されているベイジアン推論を行う意味のある方法はありますか?

2
最大尤度は再パラメーター化不変ではありません。それで、どうやってそれを使うのが正当化できるのでしょうか?
max-likelihood推定量について私を混乱させる何かがあります。私がいくつかのデータとパラメータの下の可能性を持っていると仮定しますμμ\mu です L(D|μ)=e−(.7−μ)2L(D|μ)=e−(.7−μ)2 L(D|\mu) = e^{-(.7-\mu)^2} これは、スケーリングまでのガウスの可能性として認識できます。今私の最尤推定量は私にくれますμ=.7μ=.7\mu=.7。 今、私はそれを知らず、代わりにパラメータを操作していたとしましょう ttt そのような μ=sin(t)μ=sin⁡(t)\mu=\sin(t)。また、これはすべて数値であり、次の可能性がどのように愚かに見えるかはすぐにはわかりません。 L(D|t)=e−(.7−sin(t))2L(D|t)=e−(.7−sin⁡(t))2 L(D|t) = e^{-(.7-\sin(t))^2} 今、私は最大の可能性を解決し、追加のソリューションを取得します。これを確認するために、以下にプロットします。 したがって、この観点からすると、max-likelihood は再パラメーター化不変ではないため、愚かなことのように思えます。何が欠けていますか? 可能性は常に測度とともに来るため、ベイズ分析は当然これを処理します。 L(D|μ)P(μ)dμ=L(D|μ(t))P(μ(t))dμdtdtL(D|μ)P(μ)dμ=L(D|μ(t))P(μ(t))dμdtdt L(D|\mu) P(\mu) d\mu = L(D|\mu(t)) P(\mu(t)) \frac{d\mu}{dt} dt 応答とコメントの後に部分を追加(2018年3月16日に追加) 上の2つの最大値が t1,t2t1,t2t_1,t_2 対応する .7=sin(t1)=sin(t2).7=sin⁡(t1)=sin⁡(t2).7=\sin(t_1)=\sin(t_2)。彼らは同じ点を特定しています。以下の議論と回答が意味をなすように、私は上記を守りました。しかし、私が理解しようとしている問題のより良い例を以下に示します。 取る L(D|μ)=e−(a−μ)2L(D|μ)=e−(a−μ)2 L(D|\mu) = e^{-(a-\mu)^2} ここで、パラメータを再設定するとします μ=μ(t)μ=μ(t)\mu=\mu(t) 次に、最大尤度を行います ttt 私は得る ∂L∂t=∂L∂μ∂μ∂t∂L∂t=∂L∂μ∂μ∂t \frac{\partial L}{\partial t} = \frac{\partial L}{\partial …

2
ベイジアン階層モデルでは、交換可能性が保持されない場合、何が問題になりますか?
多くの教科書では、古典的なノーマル-ノーマルモデルなどのベイジアンモデルが提示されると、試験は交換可能でなければならないというある種の簡単な言及があります。なぜこれが必要なのか、交換可能性が保持されない場合は何がうまくいかないのでしょうか。誰かが簡潔な答えを持っていますか?

3
ベイジアン思考への道を学ぶ?
私はビジネスの役割を6年間務めており、物理学と応用数学/統計学の学士号を持っています。ショーンキャロル(Caltechの物理学者)の「全体像」から、ベイジアン統計は何かについて考えるための1つの有用な方法であるという考えに私を導きました-必然的に事前情報を保持します。 このように考える直感を訓練する方法はありますか?批判的には、コース、または多くの問題と解決策を含む自己学習を通じて検証可能な答えを用いて繰り返し練習する必要があります。ただ読むだけでいいとは思いません。 このサイトで関連するすべての質問を読んだら、考えられるリソース: Jaynesによる「確率論」。プロ:分析的; ベイジアン統計の直感的な説明。欠点:前提条件。不足している問題/解決策。 "Does Bayesian Data Analysis" by Kruschke。プロ:問題と解決策が含まれます。「代数とさびた微積分」だけが必要です。短所:Rで動作しますが、分析よりも直感的な学習が少ないと思います(私は間違っているかもしれません)。 それが私が取るべき複数年の道であるなら、他の場所から始めて、私はそうすることができて嬉しいです!理想的には、私はそれらを使用しないので、常連主義の方法を避けるでしょう。 私の目標は科学者ではなく、ビジネスで確立された思考を超えて現実がどのように機能するかについての洞察を活用することです。 提案をありがとう!
7 bayesian 

1
これはベイズ推定器になるための*必要な*条件ですか、それとも十分なものですか?
ベイズ推定量は、ベイズリスクを最小化するものです。具体的には、場合に限り δΛ=argminBR(Λ,δ):=∫R(θ,δ)dΛ(θ)=∫(∫L(θ,δ(x))dx)dΛ(θ)δΛ=arg⁡minBR⁡(Λ,δ):=∫R(θ,δ)dΛ(θ)=∫(∫L(θ,δ(x))dx)dΛ(θ)\delta_{\Lambda} = \arg\min \operatorname{BR}(\Lambda,\delta) := \int R(\theta, \delta) d \Lambda(\theta) = \int \left( \int L(\theta, \delta(x))dx \right) d \Lambda(\theta) ここで、L(θ,δ(X))L(θ,δ(X))L(\theta, \delta(X))与えられた損失関数であり、R(θ,δ)R(θ,δ)R(\theta, \delta)であります対応するリスク関数、およびBR(Λ,δ)BR⁡(Λ,δ)\operatorname{BR}(\Lambda, \delta)はベイズリスクとして定義され、δΛδΛ\delta_{\Lambda}はベイズ推定量です。 定理4.1.1のp。カセッラの228、レーマン、点推定の理論、および定理7.1のp。キーナーの116、理論的統計:コアコースのトピックでは、\ delta _ {\ Lambda}がベイズ推定器になるための次の十分な条件を述べています。δΛδΛ\delta_{\Lambda} ∀x,δΛ=argminE[L(Θ,δ(X))|X=x]∀x,δΛ=arg⁡minE[L(Θ,δ(X))|X=x]\forall x, \quad \delta_{\Lambda} = \arg\min \mathbb{E}\left[ L(\Theta, \delta(X))| X = x \right] これは十分条件である理由は明らかである:第一積分するxxx、我々はによって得る積分の単調argminarg⁡min\arg\minためE[L(Θ,δ(X))]=∫L(Θ,δ(x))dx=R(Θ,δ)E[L(Θ,δ(X))]=∫L(Θ,δ(x))dx=R(Θ,δ)\mathbb{E}[L(\Theta, \delta(X))] = \int L(\Theta, \delta(x)) dx = …

2
ガウスプロセスのバイナリ分類で、なぜシグモイド関数がガウス関数よりも好ましいのですか?
私は現在「機械学習のためのガウス過程」を研究しており、第3章では後p(y∗|X,y,x∗)p(y∗|X,y,x∗)p(y_*|X,\mathbf{y},\mathbf{x}_*) (eq。3.10)と潜在変数事後 p(f∗|X,y,x∗)p(f∗|X,y,x∗)p(f_*|X,\mathbf{y},\mathbf{x}_*)(eq。3.9)(3.9)のシグモイド尤度と(3.10)のシグモイド関数により、一般に解析的に解くことができません。方程式を調べなくても済むように、次のようにします。 p(y∗=+1|X,y,x∗)p(f∗|X,y,x∗)=∫σ(f∗)p(f∗|X,y,x∗)df∗=∫p(f∗|X,x∗,f)p(f|X,y)df(3.10)(3.9)p(y∗=+1|X,y,x∗)=∫σ(f∗)p(f∗|X,y,x∗)df∗(3.10)p(f∗|X,y,x∗)=∫p(f∗|X,x∗,f)p(f|X,y)df(3.9) \begin{align} p(y_*=+1|X,\mathbf{y},\mathbf{x}_*) &= \int\sigma(f_*)\,p(f_*|X,\mathbf{y},\mathbf{x}_*)\,df_*\quad\quad&\mbox{(3.10)} \\ p(f_*|X,\mathbf{y},\mathbf{x}_*) &= \int p(f_*|X,\mathbf{x}_*,\mathbf{f})\,p(\mathbf{f}|X,\mathbf{y})\,d\mathbf{f}&\mbox{(3.9)} \end{align} 私の主な質問は次のとおりです: fff ガウス過程としてモデル化された、ガウス関数の代わりにシグモイド関数を(どちらの方程式でも)使用する理由 p(y=+1|f(x))=g(f(x))≜exp{−f2(x)2}?p(y=+1|f(x))=g(f(x))≜exp⁡{−f2(x)2}? p(y=+1\,|\,f(\mathbf{x}))=g(f(\mathbf{x}))\triangleq\exp\left\{-\frac{f^2(\mathbf{x})}{2}\right\} \enspace? これは、両方の積分に対する閉じた形のソリューションにつながります。ガウス関数はシグモイド関数のように単調ではありませんが、GPは複数のターニングポイントを持つ関数を生成できるため、単調性は不要のようです。がトレーニングデータから離れているときに(3.10)がに確実に収束するようにするには、おそらく前のに平均を与えることで十分でしょう。: ここで、はのベクトルであり、はトレーニングサンプルの数です。 1212\frac{1}{2}x∗x∗\mathbf{x_*}p(f|X)p(f|X)p(\mathbf{f}|X)E[f|X]ω=ω1n=−2ln12−−−−−−√,E[f|X]=ω1nω=−2ln⁡12, \begin{align} \mathbb{E}[\mathbf{f}|X] &= \omega\mathbf{1}_n \\ \omega&=\sqrt{-2\ln\frac{1}{2}} \enspace, \end{align} 1n1n\mathbf{1}_nnnn 111nnng(ω)=12.g(ω)=12. g\left(\omega\right)=\frac{1}{2}\enspace. シグモイド尤度の動作とは対照的に、ガウス尤度は、負のラベルの付いた入力ポイントに対して大きな(正または負の)エントリを優先し、正のラベルの付いたポイント小さなエントリを優先します。ff\mathbf{f}ff\mathbf{f} ガウス関数は、シグモイドでは発生しない問題を引き起こしますか?シグモイドの代わりにガウス関数がバイナリGP分類で使用された論文はありますか? 2017年5月25日更新 さらに考察すると、上記で提案されたゼロ以外の事前平均は、の符号がどうあるべきかについてのあいまいさを解決するのにも役立ちます(はどちらの符号も優先しません;)。以前の平均がゼロの場合、の平均がゼロであるため、このあいまいさを解決することは重要であると思われます事前確率と尤度はどちらも偶関数であるため、で定義された尤度の下でもゼロになります。すなわち: fffgggg(f(x))=g(−f(x))g(f(x))=g(−f(x))g(f(\mathbf{x}))=g(-f(\mathbf{x}))p(f|X)p(f|X)p(\mathbf{f}|X)p(f|X,y)p(f|X,y)p(\mathbf{f}|X,\mathbf{y})gggff\mathbf{f}p(y|f)p(yi|fi)∴E[f|X]=0→p(−f|X,y)=∏i=1np(yi|fi)={g(fi)1−g(fi),yi=+1,yi=−1=p(y|−f)p(−f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y).p(y|f)=∏i=1np(yi|fi)p(yi|fi)={g(fi),yi=+11−g(fi),yi=−1∴E[f|X]=0→p(−f|X,y)=p(y|−f)p(−f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y). \begin{align} p(\mathbf{y}|\mathbf{f})&=\prod_{i=1}^n p(\mathbf{y}_i|\mathbf{f}_i) \\ p(\mathbf{y}_i|\mathbf{f}_i) &= \begin{cases} g(\mathbf{f}_i) & ,\;\mathbf{y}_i=+1 \\ …

2
ポッパーの理論によると、頻度主義の枠組みはベイジアンの枠組みよりも適切ですか?
カールポッパーによれば、偽りのない仮説だけが真に科学的です(Wikipedia引用): 実験的テストのレベルでの肯定的な結果の数は科学的理論を確認できませんが、単一の反例が論理的に決定的です。 これらの理論的前提に沿って、どの統計フレームワークが頻繁であるか、それともベイジアンか?

1
ベイジアンでの前のフラット?古典的な統計の信頼区間は信頼できる区間に変わりますか?
私たちが知っているconfidence interval確率文に使用することはできません、これは何かがために予約されていますcredible interval。 ただし、最も一般的に使用される頻度主義手法(たとえば、平均と比率の信頼区間)は、特定の事前分布のベイズの信頼できる区間と同等です。一般的な例は、フラット事前です。(参考:ベイズ統計学のウィリアム・ボルスタッド) これが本当なら、常連の教科書に従って信頼区間を計算すると。言ってもいい: 「これは私の信頼区間です。これは、以前はフラットで信頼できる区間であるため、実際はベイジアンです。この区間を、パラメーターに関するベイジアン確率ステートメントとして解釈します。」 統計を学ぶすべての統計学生はベイジアンですか?みんなベイジアン?

1
ベイジアンガウス過程回帰からの予測は正規分布ですか?
トピックは同じですが、これは他の質問とは直接関係ありません。それはおそらく非常に些細な質問でもありますが、私と一緒にください:)ガウスプロセス回帰の使用について同僚と話していたところ、彼は2つの主張に同意しませんでした: GPRは、予測子が正規分布している場合の応答のモデル化にのみ使用できます。 GPRモデルの応答は常に正規分布です。 最初のアサーションは偽(実際、GPRは予測子の結合分布についてまったく仮定を立てていません)であると思いますが、2番目のアサーションは、ハイパーパラメーターが固定されている場合にのみ真です。ただし、完全なベイズアプローチに従い、ハイパーパラメーターの事後確率分布を導出した場合、事後予測分布は正規分布ではなくなります。これは、ハイパーパラメーターと観測を条件とする応答の分布のみです。正規分布。数式では: y=f(x)+ϵ,ϵ∼N(0,σ2noise)y=f(x)+ϵ,ϵ∼N(0,σnoise2)y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise}) と前にGPを想定 f(x)f(x)f(\mathbf{x})。しましょう{(x1,y1,)…,(xd,yd,)}{(x1,y1,)…,(xd,yd,)}\{(\mathbf{x_1},y_1,)\dots,(\mathbf{x_d},y_d,)\} 観測値のセットである場合、ハイパーパラメーターの事後確率分布は p(θ|y)∝p(y|θ)p(θ)p(θ|y)∝p(y|θ)p(θ)p(\boldsymbol{\theta}|\mathbf{y})\propto p(\mathbf{y}|\boldsymbol{\theta})p(\boldsymbol{\theta}) ここで、ハイパーパラメーターと観測値を条件とする新しい応答ベクトルの分布、つまり、通常は配布されます(そうですか?)ただし、事後予測分布はy∗y∗\mathbf{y^*}p(y∗|θ,y)p(y∗|θ,y)p(\mathbf{y^*}|\boldsymbol{\theta},\mathbf{y}) p(y∗|y)=∫p(y∗,θ|y)p(θ)dθ=∫p(y∗|θ,y)p(θ|y)p(θ)dθp(y∗|y)=∫p(y∗,θ|y)p(θ)dθ=∫p(y∗|θ,y)p(θ|y)p(θ)dθp(\mathbf{y^*}|\mathbf{y})=\int{p(\mathbf{y^*},\boldsymbol{\theta}|\mathbf{y})p(\boldsymbol{\theta})}d\boldsymbol{\theta}=\int{p(\mathbf{y^*}|\boldsymbol{\theta},\mathbf{y})p(\boldsymbol{\theta}|\mathbf{y})p(\boldsymbol{\theta})}d\boldsymbol{\theta} 積分では、項が(多変量)正規確率密度関数です。とは、当面の統計的問題をモデル化するのに適切と考えるあらゆる分布を持っているかもしれません。これら3つの分布の積の積分wboldが正規分布していると考える理由はありません。したがって、ベクトルが正規分布しているとは言えません。これは正しいです?p(y∗|θ,y)p(y∗|θ,y)p(\mathbf{y^*}|\boldsymbol{\theta},\mathbf{y})p(y|θ)p(y|θ)p(\mathbf{y}|\boldsymbol{\theta})p(θ)p(θ)p(\boldsymbol{\theta})θθ\boldsymbol{\theta}y∗|yy∗|y\mathbf{y^*}|\mathbf{y}

1
ベイジアン更新-コイン投げの例
ベイジアン更新について質問があります。一般に、ベイジアン更新は、以前の信念分布から事後を取得するプロセスを指します。 別の方法として、最初のステップの後を、さらなる計算のための事前の入力として使用することで、用語を理解できます。 以下は簡単な計算例です。方法aは標準計算です。方法bでは、次の事後を計算する前に、事後出力を入力として使用します。 メソッドaを使用して、P(F | HH)= 0.2を取得します。メソッドbを使用すると、P(F | HH)= 0.05が得られます。私の質問は、方法bが有効なアプローチであるかどうかです。 問題:あなたはコインを2回投げ、2つのヘッドを獲得します。コインが公正である確率はどのくらいですか、すなわちPr (Fa i r c o i n | H H)Pr(Fair coin|HH)Pr(Fair\ coin| HH)? では、最初のトスについて: Pr (Fa i r c o i n | H )=Pr (He a d| FI R )⋅ P(Fa i r )Pr (He a d| FI …
7 bayesian 

2
事後予測分布とMAP推定
トレーニングデータセット、によってパラメーター化された確率モデル、および以前の考えます。新しいデータポイント場合、次を使用してを計算できます。XXXθθ\thetaP(θ)P(θ)P(\theta)x∗x∗x^*P(x∗)P(x∗)P(x^*) 完全なベイジアンアプローチ:事後予測分布P(x∗|X)=∫P(θ|X)P(x∗|θ)dθP(x∗|X)=∫P(θ|X)P(x∗|θ)dθP(x^* | X) = \int P(\theta|X) P(x^*|\theta) d\theta 最大事後推定によってパラメーター化された尤度:、ここでP(x∗|θMAP)P(x∗|θMAP)P(x^* | \theta_{MAP})θMAP=argmaxθP(θ|X)θMAP=argmaxθP(θ|X)\theta_{MAP} = \text{argmax}_\theta P(\theta|X) 完全なベイジアンアプローチは、MAPアプローチよりも常に「優れている」のですか?より正確には、が適切な近似であることを期待しているという意味で、MAPアプローチはベイジアンアプローチの近似ですか?P(x∗|θMAP)P(x∗|θMAP)P(x^* | \theta_{MAP})P(x∗|X)P(x∗|X)P(x^* | X)

1
予測不確実性を伴うノンパラメトリック非線形回帰(ガウスプロセス以外)
トレーニングセットのサイズがバニラGPで禁止され始めたが、それでもそれほど大きくない場合、予測の不確実性を伴うノンパラメトリック非線形回帰のためのガウスプロセス(GP)の最新の代替手段は何ですか? 私の問題の詳細は: 入力空間は低次元です(、)X⊆RdX⊆Rd\mathcal{X} \subseteq \mathbb{R}^d2≤d≤202≤d≤202\le d \le 20 出力は実数値です()Y⊆RY⊆R\mathcal{Y} \subseteq \mathbb{R} トレーニングポイントは、標準のGP(近似なし)で処理できるものよりも1桁程度大きい103≲N≲104103≲N≲10410^3 \lesssim N \lesssim 10^4 近似する関数f:X→Yf:X→Yf: \mathcal{X} \rightarrow \mathcal{Y}はブラックボックスです。連続性と滑らかさの相対的な程度を仮定できます(たとえば、GPには\ nu = \ frac {5} {2}の Matérn共分散行列を使用しますν=52ν=52\nu = \frac{5}{2}) クエリされた各ポイントについて、近似は予測の平均と分散(または不確実性の類似の測定)を返す必要があります 1つまたはいくつかの新しいトレーニングポイントがトレーニングセットに追加されたときに、メソッドが比較的高速(数秒程度)で再トレーニング可能である必要があります どんな提案も歓迎します(メソッドへのポインタ/言及と、それがうまくいくと思う理由)。ありがとうございました!

1
ベイジアンp値にデータに加えてパラメーターが含まれるのはなぜですか?
Gelmanのベイジアンデータ分析の146ページで、Gelmanはモデルの適合性をチェックする方法としてベイジアンp値について説明しています。アイデアは、観測データ()を、実験を再現した場合にモデルによって生成された可能性のあるデータ()と比較することです。yyyyrepyrepy^{rep} 彼はベイジアンp値を次のように定義しています。 pB=Pr(T(yrep,θ)≥T(y,θ)|y)pB=Pr(T(yrep,θ)≥T(y,θ)|y) p_B = Pr(T(y^{rep}, \theta) \geq T(y, \theta) | y) テスト統計をパラメーターの関数であるにするのが理にかなっている理由がよくわかりません。実際、目標が「観測されたデータとモデルによって生成された可能性のあるデータとの比較」である場合、比較は厳密にと間で行われるべきではありませんか?θθ\thetayyyyrepyrepy^{rep} たとえば、同じページのGelmanは、通常のモデルの適合性をチェックする例を提供しています。テスト統計は次のとおりです。 T(y,θ)=|y(61)−θ|−|y(6)−θ|T(y,θ)=|y(61)−θ|−|y(6)−θ| T(y, \theta) = | y_{(61)} - \theta | - |y_{(6)} - \theta | ここで、は通常のモデルの平均です。この検定統計量は、6次および61次の統計量を超えて、極端な尾でのモデルの適合を無視するように設計されています。θθ\theta 代わりに次の検定統計量を使用して、純粋にデータに依存しないのはなぜですか? T(y,θ)=|y(61)−y¯|−|y(6)−y¯|T(y,θ)=|y(61)−y¯|−|y(6)−y¯| T(y, \theta) = | y_{(61)} - \bar y | - |y_{(6)} - \bar y |

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.