ガウスプロセスのバイナリ分類で、なぜシグモイド関数がガウス関数よりも好ましいのですか?


7

私は現在「機械学習のためのガウス過程」を研究しており、第3章では後p(y|X,y,x) (eq。3.10)と潜在変数事後 p(f|X,y,x)(eq。3.9)(3.9)のシグモイド尤度と(3.10)のシグモイド関数により、一般に解析的に解くことができません。方程式を調べなくても済むように、次のようにします。

p(y=+1|X,y,x)=σ(f)p(f|X,y,x)df(3.10)p(f|X,y,x)=p(f|X,x,f)p(f|X,y)df(3.9)

私の主な質問は次のとおりです: f ガウス過程としてモデル化された、ガウス関数の代わりにシグモイド関数を(どちらの方程式でも)使用する理由

p(y=+1|f(x))=g(f(x))exp{f2(x)2}?
これは、両方の積分に対する閉じた形のソリューションにつながります。ガウス関数はシグモイド関数のように単調ではありませんが、GPは複数のターニングポイントを持つ関数を生成できるため、単調性は不要のようです。がトレーニングデータから離れているときに(3.10)がに確実に収束するようにするには、おそらく前のに平均を与えることで十分でしょう。: ここで、はのベクトルであり、はトレーニングサンプルの数です。 12xp(f|X)
E[f|X]=ω1nω=2ln12,
1nn 1n
g(ω)=12.

シグモイド尤度の動作とは対照的に、ガウス尤度は、負のラベルの付いた入力ポイントに対して大きな(正または負の)エントリを優先し、正のラベルの付いたポイント小さなエントリを優先します。ff

ガウス関数は、シグモイドでは発生しない問題を引き起こしますか?シグモイドの代わりにガウス関数がバイナリGP分類で使用された論文はありますか?

2017年5月25日更新

さらに考察すると、上記で提案されたゼロ以外の事前平均は、の符号がどうあるべきかについてのあいまいさを解決するのにも役立ちます(はどちらの符号も優先しません;)。以前の平均がゼロの場合、の平均がゼロであるため、このあいまいさを解決することは重要であると思われます事前確率と尤度はどちらも偶関数であるため、で定義された尤度の下でもゼロになります。すなわち: fgg(f(x))=g(f(x))p(f|X)p(f|X,y)gf

p(y|f)=i=1np(yi|fi)p(yi|fi)={g(fi),yi=+11g(fi),yi=1E[f|X]=0p(f|X,y)=p(y|f)p(f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y).

平均場合ゼロであった、トレーニングセットのラベルクエリ点ラベルに関する情報提供しないであろうそれほど明確に我々はいけません、これを許可します。したがって、を定義することに加えて、おそらくをさらにバイアスする必要があります前の比較的小さい標準偏差を与えることにより、正の向かって、たとえば、は共分散関数で、です。これを行う場合は、おそらくもスケールアップする必要があります。p(f|X,y)yyE[f|X]=ω1np(f|X,y)fp(f|X)k(x,x)=ωβkβ[2,3]g引数、その結果の小さな値生成するimprobably遠い前平均からでなければならないであろう: ここで。fg

g(f(x);s)=exp{f2(x)2s2},
s<1

これは記号のあいまいさの問題を修正するための合理的な方法でしょうか?f

回答:


3

彼らはこれを第3章の脚注(最初のページ)で言及していると思います

ターゲット値の離散性を無視して回帰処理を選択することもできます。この場合、バイナリ分類ではすべてのターゲットがたまたま±1になります。これは最小二乗分類として知られています。セクション6.5を参照してください。

6.5 http://www.gaussianprocess.org/gpml/chapters/RW6.pdfを見ると、シグモイド関数を使用する利点は、出力を確率論的に解釈できるということです(つまり、例に正の応答がある確率)。 。


1
最小二乗分類は、私が考えていたものではありませんが、バイナリ分類を検討するもう1つの興味深い代替手段です。私が心に留めていたのは、第3章で説明したとおりにGPバイナリ分類を行うことでした。ただし、が出現するごとに上記のガウス関数置き換えられます(の最大値は1であり、正規化されたガウスPDFではありません)。 、および前のは、私の質問で説明されている平均が与えられます。σggp(f|X)
大瀬

0

このアプローチの問題は、の項の数がトレーニングセットの負のラベルが付いた点の数とともに指数関数的に増加するため、(3.9)の閉形式の解が指数関数的な時間の複雑さ。より具体的には、一般性を失うことなく、 次に (3.9)の閉形式の解を得るには、最初の積を(正規化されていない)ガウス関数の合計に展開する必要があります。これにより、それぞれを個別に統合できます。 p(y|f)

y1==ya=1,ya+1==yn=+1,
p(y|f)=(i=1a(1g(fi)))i=a+1ng(fi).
i=1a(1g(fi))=IP{1,,a}(1)|I|exp{12iIfi2}.
負のラベルが付けられた点のインデックスのべき乗セットに はセットがあるため、(3.9)を解くと計算が必要になりますガウス積分。2aP{1,,a}{1,,a}2a

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.