私は現在「機械学習のためのガウス過程」を研究しており、第3章では後p(y∗|X,y,x∗) (eq。3.10)と潜在変数事後 p(f∗|X,y,x∗)(eq。3.9)(3.9)のシグモイド尤度と(3.10)のシグモイド関数により、一般に解析的に解くことができません。方程式を調べなくても済むように、次のようにします。
p(y∗=+1|X,y,x∗)p(f∗|X,y,x∗)=∫σ(f∗)p(f∗|X,y,x∗)df∗=∫p(f∗|X,x∗,f)p(f|X,y)df(3.10)(3.9)
私の主な質問は次のとおりです: f ガウス過程としてモデル化された、ガウス関数の代わりにシグモイド関数を(どちらの方程式でも)使用する理由
p(y=+1|f(x))=g(f(x))≜exp{−f2(x)2}?
これは、両方の積分に対する閉じた形のソリューションにつながります。ガウス関数はシグモイド関数のように単調ではありませんが、GPは複数のターニングポイントを持つ関数を生成できるため、単調性は不要のようです。がトレーニングデータから離れているときに(3.10)がに確実に収束するようにするには、おそらく前のに平均を与えることで十分でしょう。:
ここで、はのベクトルであり、はトレーニングサンプルの数です。
12x∗p(f|X)E[f|X]ω=ω1n=−2ln12−−−−−−√,
1nn 1ng(ω)=12.
シグモイド尤度の動作とは対照的に、ガウス尤度は、負のラベルの付いた入力ポイントに対して大きな(正または負の)エントリを優先し、正のラベルの付いたポイント小さなエントリを優先します。ff
ガウス関数は、シグモイドでは発生しない問題を引き起こしますか?シグモイドの代わりにガウス関数がバイナリGP分類で使用された論文はありますか?
2017年5月25日更新
さらに考察すると、上記で提案されたゼロ以外の事前平均は、の符号がどうあるべきかについてのあいまいさを解決するのにも役立ちます(はどちらの符号も優先しません;)。以前の平均がゼロの場合、の平均がゼロであるため、このあいまいさを解決することは重要であると思われます事前確率と尤度はどちらも偶関数であるため、で定義された尤度の下でもゼロになります。すなわち:
fgg(f(x))=g(−f(x))p(f|X)p(f|X,y)gf
p(y|f)p(yi|fi)∴E[f|X]=0→p(−f|X,y)=∏i=1np(yi|fi)={g(fi)1−g(fi),yi=+1,yi=−1=p(y|−f)p(−f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y).
平均場合ゼロであった、トレーニングセットのラベルクエリ点ラベルに関する情報提供しないであろうそれほど明確に我々はいけません、これを許可します。したがって、を定義することに加えて、おそらくをさらにバイアスする必要があります前の比較的小さい標準偏差を与えることにより、正の向かって、たとえば、は共分散関数で、です。これを行う場合は、おそらくもスケールアップする必要があります。p(f|X,y)yy∗E[f|X]=ω1np(f|X,y)fp(f|X)k(x,x)−−−−−−√=ωβkβ∈[2,3]g引数、その結果の小さな値生成するimprobably遠い前平均からでなければならないであろう:
ここで。fg
g(f(x);s)=exp{−f2(x)2s2},
s<1
これは記号のあいまいさの問題を修正するための合理的な方法でしょうか?f