SVMとヒンジ損失の関係は何ですか？

私の同僚と私は、ロジスティック回帰とSVMの違いに頭を抱えようとしています。明らかに、それらは異なる目的関数を最適化しています。SVMは、ヒンジ損失を単に最適化する判別型分類器であると言うほど簡単ですか？それともそれよりも複雑ですか？サポートベクターはどのように機能しますか？スラック変数はどうですか？シグモイドアクティベーション関数を使用したディープニューラルネットワークを構築できないのに、ディープSVMを導入できないのはなぜですか？

— サイモン
ソース

ここにあなたの質問に答える私の試みがあります：

SVMは、単純にヒンジ損失を最適化する判別型分類器であると言うほど簡単ですか？それともそれよりも複雑ですか？はい、あなたはそれを言うことができます。また、モデルを正規化することも忘れないでください。SVMがそれより複雑であるとは言えませんが、それらすべての選択（たとえば、ヒンジ損失と $L_2$ 正則化）は正確な数学的解釈を持ち、恣意的ではないことを述べることが重要です。これがSVMを非常に人気があり強力なものにしている理由です。たとえば、ヒンジ損失は、タスクの損失に対する連続した凸状の上限であり、バイナリ分類問題の場合、 $0/1$ 損失です。なお $0/1$ 損失は凸状ではなく、不連続です。ヒンジ損失の凸性により、SVMのトレーニング目標全体が凸になります。それがタスク損失の上限であることは、境界の最小化要素がタスク損失に対して悪い値を持たないことを保証します。 $L_2$ 正則化は、幾何学的にマージンのサイズとして解釈できます。
サポートベクターはどのように機能しますか？ サポートベクターは、SVMのトレーニングで重要な役割を果たします。それらは分離する超平面を識別します。レッツ訓練集合を表すとあなたが上でSVMを訓練することによって取得することをサポートベクトルの集合（すべてのハイパーが先験的に固定されていると仮定します）。からすべての非SVサンプルを破棄し、残りのサンプル（つまり）で別のSVM（同じハイパーパラメーター値を使用）をトレーニングすると、以前とまったく同じ分類子が得られます！ $D$ $SV(D) \subseteq D$ $D$ $D$ $SV(D)$
スラック変数はどうですか？SVMは元々、分離超平面（2つのクラスからトレーニングサンプルを完全に分離する超平面）が存在する問題のために設計されたもので、すべての分離超平面の中から最大のマージンを持つ超平面を見つけることが目的でした。マージンを付し、、分類器のために定義され及びトレーニングセット。がすべての例を完全に分離しているとすると、となります。分離超平面からの最も近いトレーニング例の距離 $d(w, D)$ $w$ $D$ $w$ $D$ $d(w, D) = \min_{(x, y) \in D} y \frac{w^Tx}{||w||_2}$ $w$ 。ここではであることに注意してください。スラック変数の導入により、1）分離超平面が存在しない（つまり、トレーニングデータが線形的に分離できない）、または2）いくつかを作成することに満足している（またはしたい）場合に、SVMをトレーニングすることが可能になりました。より一般化するためのエラー（より高いバイアス）（より低い分散）。ただし、これには、スラック変数のないSVMの具体的な数学的および幾何学的な解釈（たとえば、マージンの幾何学的な解釈）を打ち破る代償があります。 $y \in \{+1, -1\}$
ディープSVMを使用できないのはなぜですか？ SVM対物レンズは凸面です。より正確には、区分的2次です。これは、正則化器が2次であり、ヒンジ損失が区分的に線形であるためです。ただし、深い階層モデルのトレーニング目標ははるかに複雑です。特に、それらは凸面ではありません。もちろん、ヒンジ損失や正則化などの階層的識別モデルを設計できますが、SVMとは呼ばれません。実際、ヒンジ損失は、分類問題のDNN（ディープニューラルネットワーク）で一般的に使用されています。 $L_2$ $L_2$

— ソビ
ソース