SVM回帰の理解:目的関数と「平坦性」


12

分類用のSVMは直感的に理解できます。最小化すると最大マージンが得られることは理解しています。しかし、回帰の文脈でその目的を理解していません。さまざまなテキスト(ここここ)で、これを「平坦性」を最大化するものとして説明しています。なぜそうするのでしょうか?回帰分析で「マージン」の概念に相当するものは何ですか?||θ||2

ここにいくつかの試みられた答えがありますが、私の理解を本当に助けたものはありません。


私は実際にはSVMの理論に基づいていませんが、あなたがリンクしているカーネルとマシンの議論の「平坦性」は次のように思えます:「小さな二次微分があります」(スプライン平滑化モデルの典型的な動機を考えてください)。
共役前

回答:


11

フラットネスについて考える1つの方法は、フィーチャの摂動に対する予測の感度を下げることです。つまり 、特徴ベクトルがすでに正規化されているの形式のモデルを構築し ている場合、値が小さいほど、モデルは測定誤差の影響を受けにくいことを意味します/ランダム衝撃/機能の非定常性、。データを同等にうまく説明する2つのモデル(つまり、 2つの可能な値)が与えられた場合、「フラットな」モデルを好みます。X θ X θ

y=xθ+ϵ,
xθxθ

Ridge Regressionは、カーネルトリックやSVM「チューブ」回帰定式化なしで同じことを実行すると考えることもできます。

編集:@Yangのコメントに応えて、さらにいくつかの説明:

  1. 線形の場合、考えます。が、ある分布からiidで描画されると仮定します。内積のアイデンティティにより、、ここではと間の角度で、おそらく球形に均一な分布で分布しています。ここで注意してください:予測の'スプレッド'(たとえば、サンプル標準偏差)は比例します 。観測の潜在的でノイズのないバージョンで適切なMSEを取得するには、を縮小します。。X θ Y = | | x | | | | θ | | COS ψ + ε ψ θ Xy=xθ+ϵxθy=||x||||θ||cosψ+ϵψθx| | θ | | | | θ | |y||θ||||θ||CF ジェームズ・スタイン推定
  2. 多くの特徴を持つ線形の場合を考えてください。モデルおよびます。もしよりもその中に多くのゼロ要素がある、同じ説明力については、我々はそれを好む、オッカムの剃刀のベース、それは少数の変数に依存しているので(つまり、我々はいくつかの要素を設定することにより、[完了機能の選択」を持っていますゼロ)。フラットネスは、この引数の連続バージョンの一種です。各周辺に単位標準偏差があり、にたとえば 10である2つの要素と残りのy=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1n2ノイズの許容度に応じて、0.0001より小さい場合、これは2つの機能を効果的に「選択」し、残りの機能をゼロにします。
  3. カーネルトリックを使用すると、高(場合によっては無限)次元のベクトル空間で線形回帰を実行します。各要素は、特徴ではなくサンプルの 1つに対応するようになりました。場合はの要素非ゼロであり、残りの対応する機能、ゼロでの非ゼロ要素あなたの「サポートベクトル」と呼ばれています。たとえば、ディスクにSVMモデルを保存するには、特徴ベクトルを保持するだけでよく、残りは捨てることができます。平坦性は本当に重要です。なぜならθkθmkkθkk小さいと、ストレージと伝送などの要件が減少します。ここでも、ノイズのためのあなたの許容度に応じて、あなたはおそらく、すべての要素をゼロにすることができますが、、いくつかのために、最大の SVM回帰を実行した後、。ここでの平坦度は、サポートベクトルの数に関して節約と同等です。θll

1
したがって、これは基本的に、OLSからの2次損失関数ではなく、「チューブ」損失関数(予測のポイント+/-イプシロンに対するペナルティ0)を使用した回帰ですか?
共役前

@Conjugate Prior:はい、通常、カーネル回帰は「イプシロン無依存損失」関数を最小化します。これは、と考えることができます。例:kernelsvm.tripod.comまたはスモーラ等による論文。f(x)=(|x|ϵ)+
みすぼらしいシェフ

@shabbychefありがとう。私はいつも何が起こっているのだろうと思った。
共役前

@Conjugate Prior:これは実際には望ましい損失関数ではないと思いますが、数学はうまく機能するので、彼らはそれで走りました。少なくともそれは私の疑いです。
みすぼらしいシェフ

@shabbychef:まだ迷っています。1次元の場合、考えます。最小化すると、より水平な線になります。二次導関数とは何の関係もないようですが、これはあなたが言及していると思います(「滑らかさ」)。そして、サンプルポイントが(0,0)と(1,1e9)の場合、なぜより平坦な線を好むのでしょうか?つまりは、私の言う(1,1e9-1)(になぜ私は(0,0)から平坦ラインを好むだろう-公差が1である((1,1e9)を介して)の代わりにラインの)または(1,1e9 + 1)を通る線()?y=θxθϵθ=1e91θ=1e9θ=1e9+1
ヤン

3

shabbychefは、モデルの複雑さの観点から非常に明確な説明をしました。誰かを助けるかもしれないので、別の観点からこの問題を理解しようとします。

基本的に、SVCのマージンを最大化します。これはSVRでも同じですが、より一般化するために、定義された精度e予測誤差を最大化する必要があります。ここで、最大化するのではなく予測誤差を最小化すると、未知のデータの予測結果がオーバーフィットする可能性が高くなります。1次元の場合の「予測誤差の最大化」について考えてみましょう。e

一次元の場合には、我々の目標は、すべての点からの距離を最大化することであるトレンドラインにYが= ω X + B内のE。精度の制約をeに設定して、最小化ではなく距離を最大化できることに注意してください。次に、ポイントからラインまでの距離の非常に単純な方程式を見てみましょう。(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

現在、分子は制限されています。距離を最大化するために、私たちがやろうとしているのはωを最小化することですeω

距離方程式は常にユークリッド距離になるため、誰でも簡単に1次元のケースをN次元のケースに拡張できます。

さらに、比較のためにSVRの最適化の問題に関するレビューがあるかもしれません[1]。

トン{ Y I - < ω X I > - B E < ω X I > + B - Y IE

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

ありがとう。

[1] Smola、A。、およびB.Schölkopf。サポートベクター回帰のチュートリアル。統計とコンピューティング、Vol。14、No。3、2004年8月、199〜222ページ。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.