ガウスプロセスのバイナリ分類で、なぜシグモイド関数がガウス関数よりも好ましいのですか?
私は現在「機械学習のためのガウス過程」を研究しており、第3章では後p(y∗|X,y,x∗)p(y∗|X,y,x∗)p(y_*|X,\mathbf{y},\mathbf{x}_*) (eq。3.10)と潜在変数事後 p(f∗|X,y,x∗)p(f∗|X,y,x∗)p(f_*|X,\mathbf{y},\mathbf{x}_*)(eq。3.9)(3.9)のシグモイド尤度と(3.10)のシグモイド関数により、一般に解析的に解くことができません。方程式を調べなくても済むように、次のようにします。 p(y∗=+1|X,y,x∗)p(f∗|X,y,x∗)=∫σ(f∗)p(f∗|X,y,x∗)df∗=∫p(f∗|X,x∗,f)p(f|X,y)df(3.10)(3.9)p(y∗=+1|X,y,x∗)=∫σ(f∗)p(f∗|X,y,x∗)df∗(3.10)p(f∗|X,y,x∗)=∫p(f∗|X,x∗,f)p(f|X,y)df(3.9) \begin{align} p(y_*=+1|X,\mathbf{y},\mathbf{x}_*) &= \int\sigma(f_*)\,p(f_*|X,\mathbf{y},\mathbf{x}_*)\,df_*\quad\quad&\mbox{(3.10)} \\ p(f_*|X,\mathbf{y},\mathbf{x}_*) &= \int p(f_*|X,\mathbf{x}_*,\mathbf{f})\,p(\mathbf{f}|X,\mathbf{y})\,d\mathbf{f}&\mbox{(3.9)} \end{align} 私の主な質問は次のとおりです: fff ガウス過程としてモデル化された、ガウス関数の代わりにシグモイド関数を(どちらの方程式でも)使用する理由 p(y=+1|f(x))=g(f(x))≜exp{−f2(x)2}?p(y=+1|f(x))=g(f(x))≜exp{−f2(x)2}? p(y=+1\,|\,f(\mathbf{x}))=g(f(\mathbf{x}))\triangleq\exp\left\{-\frac{f^2(\mathbf{x})}{2}\right\} \enspace? これは、両方の積分に対する閉じた形のソリューションにつながります。ガウス関数はシグモイド関数のように単調ではありませんが、GPは複数のターニングポイントを持つ関数を生成できるため、単調性は不要のようです。がトレーニングデータから離れているときに(3.10)がに確実に収束するようにするには、おそらく前のに平均を与えることで十分でしょう。: ここで、はのベクトルであり、はトレーニングサンプルの数です。 1212\frac{1}{2}x∗x∗\mathbf{x_*}p(f|X)p(f|X)p(\mathbf{f}|X)E[f|X]ω=ω1n=−2ln12−−−−−−√,E[f|X]=ω1nω=−2ln12, \begin{align} \mathbb{E}[\mathbf{f}|X] &= \omega\mathbf{1}_n \\ \omega&=\sqrt{-2\ln\frac{1}{2}} \enspace, \end{align} 1n1n\mathbf{1}_nnnn 111nnng(ω)=12.g(ω)=12. g\left(\omega\right)=\frac{1}{2}\enspace. シグモイド尤度の動作とは対照的に、ガウス尤度は、負のラベルの付いた入力ポイントに対して大きな(正または負の)エントリを優先し、正のラベルの付いたポイント小さなエントリを優先します。ff\mathbf{f}ff\mathbf{f} ガウス関数は、シグモイドでは発生しない問題を引き起こしますか?シグモイドの代わりにガウス関数がバイナリGP分類で使用された論文はありますか? 2017年5月25日更新 さらに考察すると、上記で提案されたゼロ以外の事前平均は、の符号がどうあるべきかについてのあいまいさを解決するのにも役立ちます(はどちらの符号も優先しません;)。以前の平均がゼロの場合、の平均がゼロであるため、このあいまいさを解決することは重要であると思われます事前確率と尤度はどちらも偶関数であるため、で定義された尤度の下でもゼロになります。すなわち: fffgggg(f(x))=g(−f(x))g(f(x))=g(−f(x))g(f(\mathbf{x}))=g(-f(\mathbf{x}))p(f|X)p(f|X)p(\mathbf{f}|X)p(f|X,y)p(f|X,y)p(\mathbf{f}|X,\mathbf{y})gggff\mathbf{f}p(y|f)p(yi|fi)∴E[f|X]=0→p(−f|X,y)=∏i=1np(yi|fi)={g(fi)1−g(fi),yi=+1,yi=−1=p(y|−f)p(−f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y).p(y|f)=∏i=1np(yi|fi)p(yi|fi)={g(fi),yi=+11−g(fi),yi=−1∴E[f|X]=0→p(−f|X,y)=p(y|−f)p(−f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y). \begin{align} p(\mathbf{y}|\mathbf{f})&=\prod_{i=1}^n p(\mathbf{y}_i|\mathbf{f}_i) \\ p(\mathbf{y}_i|\mathbf{f}_i) &= \begin{cases} g(\mathbf{f}_i) & ,\;\mathbf{y}_i=+1 \\ …