特徴ベクトルの余分な次元ではなく、SVMのバイアス項が個別に推定されるのはなぜですか?


11

SVMの最適な超平面は次のように定義されます。

wx+b=0,

ここで、はしきい値を表します。我々はいくつかのマッピングがある場合はφいくつかのスペースに入力スペースをマップZを、私たちは宇宙にSVMを定義することができZ最適hiperplaneはなります:bϕZZ

wϕ(x)+b=0.

しかし、我々は常にマッピング定義することができるように、φ 0X= 1X、その後最適hiperplaneのように定義される WφX= 0。ϕϕ0(x)=1x

wϕ(x)=0.

質問:

  1. なぜ、多くの論文を使用、彼らはすでにマッピングしていたときにφと推定パラメータワットとtheshold B separatellyを?wϕ(x)+b=0ϕwb

  2. SVMを定義するためのいくつかの問題がある t Y N WφX N1 Nのみベクトルパラメータ推定wは、我々が定義すると仮定し、φ 0X= 1 X

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. w=nynαnϕ(xn)b=w0b=tnwϕ(xn)bxn


回答:


12

バイアスが重要なのはなぜですか?

b

以下は、バイアスの問題を視覚化したものです。バイアス項を使用して(使用せずに)トレーニングしたSVMを左側(右側)に示します。ただし、両方のSVMは同じデータでトレーニングされますが、見た目は大きく異なります。

ここに画像の説明を入力してください

バイアスを個別に扱う必要があるのはなぜですか?

b1||w||22||w||2

||w||2

SVMのバイアス項は正則化しないでください。

ただし、実際には、バイアスを特別なケースとして扱う必要がなく、特徴ベクトルにプッシュする方が簡単です。

ϕ0(x)=10


好奇心から、プロットを生成するためにどのプログラムを使用しましたか?
d0rmLife

1
@ d0rmLife:これは、私がMS PowerPointを使用して作成した漫画です!
ソビ


1

時々、人々はSVMでインターセプトを単に省略するでしょうが、それを省略するためにインターセプトにペナルティを課すことができる理由を私は考える。つまり、

x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

ただし、切片を重みに入れると、目的関数は元の関数とわずかに異なります。それが「ペナルティ」と呼ばれる理由です。


bminw,b||w||2minw,b||w||2+b2

αntn=0αn0

@Petar私が知っていることの1つは、このモデルのデュアルフォームについて考えると、強力になることです。この手法は、線形制約を排除します。
ベン・大

@Petarドメインが簡単になるため、デュアル最適化は難しくなるとは思いません。
ベン・大

@Petar特定のアルゴリズムについては、より難しい場合があります。しかし、数学的に、私は多分、より良いボックスドメインを思う:)
ベン・大

0

xθb

|θTx+b|||θ||
θbθ


ポイントから超平面までの距離が正しく、説明が興味深いように見えても、この式とトレーニングSVMの相関関係はわかりません。この式がトレーニング中にどのように使用されているかを詳しく説明できますか、または追加のリンクを提供してください。
Dejan

θTx+b||θ||{1,1}y(θTx+b)||θ||1||θ||

@DejanあなたはAndrew Ngのノートで詳細を見つけることができます:cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.