SVMコスト関数:新旧の定義


9

ソフトマージンSVMコスト/損失関数のさまざまな定義を主形式で調整しようとしています。理解できない「max()」演算子があります。

SVMについては、Tan、Steinbach、およびKumarによる2006年の学部レベルの教科書「Introduction to Data Mining」で2006年に学びました。第5章のp。267-268。max()演算子については言及されていないことに注意してください。

これは、最適化問題の制約に正の値のスラック変数()を導入することで実行できます。...修正された目的関数は次の方程式で与えられます。ξ

f(w)=w22+C(i=1Nξ)k

ここで、Ckはユーザー指定のパラメーターであり、トレーニングインスタンスの誤分類のペナルティを表します。このセクションの残りの部分では、問題を簡単にするためにk = 1 と仮定します。パラメータCは、検証セットでのモデルのパフォーマンスに基づいて選択できます。

したがって、この制約付き最適化問題のラグランジアンは次のように書くことができます。

Lp=w22+C(i=1Nξ)ki=1Nλi(yi(wxi+b)1+ξi)i=1Nμiξi

最初の2つの項は最小化される目的関数、3番目の項はスラック変数に関連する不等式制約を表し、最後の項はξiの値に対する非負要件の結果です。

それは2006年の教科書からでした。

今(2016年)、私はSVMに関する最新の資料を読み始めました。では、画像認識のためのスタンフォード大学のクラス、ソフトマージン原初の形は非常に異なる方法で記載されています。

バイナリサポートベクターマシンとの関係。Binary Support Vector Machinesを使用したこのクラスには、i番目の例の損失を次のように書くことができます。

スタンフォードSVM

同様に、ウィキペディアのSVMに関する記事では、損失関数は次のように示されます。

ここに画像の説明を入力してください

この「最大」関数はどこから来るのですか?「データマイニングの概要」バージョンの最初の2つの式に含まれていますか?古い処方と新しい処方をどのように調整しますか?その教科書は単に時代遅れですか?

回答:


6

スラック変数は次のように定義されます(パターン認識と機械学習の画像)。ξ

ここに画像の説明を入力してください

ξi=1yi(ωxi+b)場合マージン(すなわち、の誤った側にある)、 そう。xi1yi(ωxi+b)>0ξi=0

したがって、です。ξi=max(0,1yi(ωxi+b))(1)

したがって、制約(1)影響を受ける最初の定義を最小化します は、2番目の定義(regularizer + hinge loss)

f(w)=w22+C(i=1Nξ)k
R(w)+Cmax(0,1yi(ωxi+b)).

分離できない場合のSVMの制約の理解に関連する可能性のある別の質問がありますか?


zeta_i = 1-yi(wx_i + b).. x_iが間違っている場合の理由を説明してください
Milan Amrut Joshi

@MilanAmrutJoshi良い質問です。投稿したばかりの質問に対する回答があるかどうかを確認するために待っているので、あまり考えていません
dontloo

@MilanAmrutJoshi損失には項があるので、マージンと関係があると思います。これは、「境界の反対側のすべてのポイントからマージンまでの距離を示す境界を見つけること」に等しいと思います。 「最も小さい||w||2
dontloo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.