分類用のSVMは直感的に理解できます。最小化すると最大マージンが得られることは理解しています。しかし、回帰の文脈でその目的を理解していません。さまざまなテキスト(こことここ)で、これを「平坦性」を最大化するものとして説明しています。なぜそうするのでしょうか?回帰分析で「マージン」の概念に相当するものは何ですか?
ここにいくつかの試みられた答えがありますが、私の理解を本当に助けたものはありません。
分類用のSVMは直感的に理解できます。最小化すると最大マージンが得られることは理解しています。しかし、回帰の文脈でその目的を理解していません。さまざまなテキスト(こことここ)で、これを「平坦性」を最大化するものとして説明しています。なぜそうするのでしょうか?回帰分析で「マージン」の概念に相当するものは何ですか?
ここにいくつかの試みられた答えがありますが、私の理解を本当に助けたものはありません。
回答:
フラットネスについて考える1つの方法は、フィーチャの摂動に対する予測の感度を下げることです。つまり 、特徴ベクトルがすでに正規化されているの形式のモデルを構築し ている場合、値が小さいほど、モデルは測定誤差の影響を受けにくいことを意味します/ランダム衝撃/機能の非定常性、。データを同等にうまく説明する2つのモデル(つまり、 2つの可能な値)が与えられた場合、「フラットな」モデルを好みます。X θ X θ
Ridge Regressionは、カーネルトリックやSVM「チューブ」回帰定式化なしで同じことを実行すると考えることもできます。
編集:@Yangのコメントに応えて、さらにいくつかの説明:
shabbychefは、モデルの複雑さの観点から非常に明確な説明をしました。誰かを助けるかもしれないので、別の観点からこの問題を理解しようとします。
基本的に、SVCのマージンを最大化します。これはSVRでも同じですが、より一般化するために、定義された精度eで予測誤差を最大化する必要があります。ここで、最大化するのではなく予測誤差を最小化すると、未知のデータの予測結果がオーバーフィットする可能性が高くなります。1次元の場合の「予測誤差の最大化」について考えてみましょう。
一次元の場合には、我々の目標は、すべての点からの距離を最大化することであるトレンドラインにYが= ω X + B内のE。精度の制約をeに設定して、最小化ではなく距離を最大化できることに注意してください。次に、ポイントからラインまでの距離の非常に単純な方程式を見てみましょう。
現在、分子は制限されています。距離を最大化するために、私たちがやろうとしているのはωを最小化することです。
距離方程式は常にユークリッド距離になるため、誰でも簡単に1次元のケースをN次元のケースに拡張できます。
さらに、比較のためにSVRの最適化の問題に関するレビューがあるかもしれません[1]。
秒。トン。{ Y I - < ω 、X I > - B ≤ E < ω 、X I > + B - Y I ≥ E
ありがとう。
[1] Smola、A。、およびB.Schölkopf。サポートベクター回帰のチュートリアル。統計とコンピューティング、Vol。14、No。3、2004年8月、199〜222ページ。