SVMを分類確率として解釈することが間違っているのはなぜですか?


11

私のSVMの理解は、それがロジスティック回帰(LR)に非常に似ていることです。つまり、特徴の重み付けされた合計がクラスに属する確率を得るためにシグモイド関数に渡されますが、クロスエントロピー(ロジスティック)損失ではありません。関数、ヒンジ損失を使用してトレーニングが実行されます。ヒンジ損失を使用する利点は、カーネル化をより効率的にするために、さまざまな数値トリックを実行できることです。ただし、欠点は、結果のモデルの情報が、対応するLRモデルの情報よりも少ないことです。そのため、例えば、(線形カーネルを使用して)kernelisationずにSVMの決定境界はまだLRう出力0.5の確率と同じ場所になり、しかし 1は、クラスに属する確率が離れてからの減衰どのように迅速に伝えることはできません決定境界。

私の2つの質問は次のとおりです。

  1. 上記の私の解釈は正しいですか?
  2. ヒンジ損失を使用すると、SVMの結果を確率として解釈することが無効になりますか?

回答:


8

SVMはシグモイド関数に何もフィードしません。片方のクラスのトレーニングセットからすべてのデータポイントを配置し、もう一方のクラスのすべてのポイントを配置しようとするデータに、分離超平面を適合させます。その結果、特徴ベクトルがどちら側にあるかに基づいてクラスを割り当てます。より正式には、特徴ベクトルをと表し、超平面係数をと切片とすると、クラスの割り当ては。SVMを解決すると、xββ0y=sign(βx+β0)β,β0可能な限り最大のマージンでヒンジ損失を最小化します。したがって、SVMはハイパープレーンのどちら側にいるかだけを考慮しているため、そのクラス割り当てを確率に変換することはできません。

線形SVM(カーネルなし)の場合、決定境界の境界はロジスティック回帰モデルの境界と似ていますが、SVMを適合させるために使用した正則化強度によって異なる場合があります。SVMとLRは異なる最適化問題を解決するため、決定境界に対して同一のソリューションがあるとは限りません。

SVMには、物事を明確にするのに役立つ多くのリソースがあります。ここに1つの例ともう 1 つの例があります。


higgs bosonこれはとても助かります、ありがとう!ほんのいくつかのフォローアップの質問:(1)SVM決定境界がLRと似ていない場合の直感的な例を教えていただけますか?どちらが望ましい問題の種類?
GingerBadger 2017

2
Alex:一般に、線形SVMとLRは、実際には一般的に同等に動作します。確率的な出力が必要な場合は、LRを使用します。クラスの割り当てだけに関心がある場合は、どちらでも使用できます。決定境界が大きく異なる例が必要な場合は、決定境界から遠く離れた誤ったクラスのポイントがいくつかある線形分離可能なデータセットを想像できます。外れ値はロジスティック回帰の境界を引き寄せますが、十分に大きな正則化項を持つSVMがある場合、外れ値は事実上無視されます。
higgs broson 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.