サポートベクターマシン（SVM）はロジスティック回帰のゼロ温度限界ですか？

SVMはロジスティック回帰のゼロ温度限界であると述べた知識のある友人と最近、簡単な議論がありました。理論的根拠には、限界ポリトープとフェンシェル双対性が含まれていました。フォローできませんでした。

SVMがロジスティック回帰のゼロ温度限界であるというこの説明は正しいですか？もしそうなら、誰かが議論を説明できますか？

— テッド
ソース

どちらも関連していますが、私はロジスティック回帰で各クラスの確率を取得する方が良いと考えていましたが、SVMは決定に優れていました。そのため、ロジスティック回帰はベイジアン推論とうまく適合し、各分類にある程度の信頼性を自然に提供します。一方、サポートベクトルのみが分類に影響を与えるため、SVMはより適切にスケーリングされます。これらは私の5セントです。

— Ailton Andrade de Oliveira

ハードマージンSVMと線形分離可能なデータの場合、これは当てはまります。

直感的なスケッチ：ロジスティック回帰の各データポイントの損失は、決定の境界から遠ざかるにつれて（もちろん正しい方向に）指数関数的減衰曲線としてほとんど消えます。この指数関数的減衰は、境界に最も近い点がはるかに多くの損失を被ることを意味します。温度が0に下がると、境界に最も近い点が損失を完全に支配し、損失は最も近い点がどれだけ近いかに正確に基づいて決定されます。

バイナリロジスティック回帰には、クロスエントロピー損失があります。ここで、はラベル、は予測確率です。 $- y \log p - (1-y)\log (1-p)$ $y$ $p$ $(0,1)$

通常、ここで、はシグモイド関数です。この論文で紹介した温度パラメーターに基づいて、温度は公式の変更を参照していると思います：、ここでは温度で、私は単純化するためにバイアス項を削除しました。 $p = \sigma(w^Tx + b)$ $\sigma$ $p = \sigma(\frac{w^Tx}{\tau})$ $\tau$

損失の最初の項のみを考慮すると、です。が決定境界の反対側にあり、として無限の損失が発生することを意味するため、すべてのと仮定します。指数項は極限で非常に小さくなるため、の1次テイラー展開を使用して $-y\log p = y\log(1+\exp{}(-\frac{w^Tx}{\tau}))$ $w^Tx > 0$ $x$ $\tau \rightarrow 0$ $\log(1+z)$ $-y\log p \approx y\exp{(-\frac{w^Tx}{\tau})}$

これまでは、単一のデータポイントの損失のみを使用してきましたが、実際の損失はです。正のラベルのみを考慮します（）。次に、この合計はが最も小さい（決定境界に最も近い）項によって支配されます。 $\sum_i y_i \exp{(-\frac{w^Tx_i}{\tau})}$ $y_i = 1$ $w^Tx_i$

これは、項と項の比率がは無限大または0になりになるため、最大の項のみが重要になります。 $i$ $j$ $\frac{\exp (-w^T x_i/\tau)}{\exp (-w^T x_j/\tau)} = \exp(\frac{w^T x_j-w^T x_i}{\tau})$ $\tau \rightarrow 0$ $w^T x_i$

対称引数は、損失の第2項で使用できます。

したがって、決定境界までの最小距離を最大化することにより、温度が0になるときのロジスティック回帰問題の損失が最小化されます。

— シマオ
ソース