SVMの汎化限界

サポートベクターマシンの一般化能力の理論的な結果、たとえば分類エラーの確率やこれらのマシンのVapnik-Chervonenkis（VC）次元の限界に興味があります。しかし、文献を読んでいると、同じような定期的な結果の一部は著者間で、特に特定の拘束力を維持するために必要な技術的条件に関して、わずかに異なる傾向があるという印象を受けました。

以下では、私は私が反復的に何らかの形で発見したことを主な汎化結果のSVMの問題と状態3の構造を思い出すだろう私は博覧会を通して、主に3つの参照を与えます。 $-$

問題の設定：

独立して同一に分布した（iid）ペアデータサンプルがあるとしますここで、すべての、と。、および定義される分離超平面間の最小マージンを最大化するサポートベクターマシン（SVM）を構築します、および間の最も近い点。これにより、および定義された2つのクラスが分離されます。SVMに、スラック変数を導入することにより、ソフトマージンを介していくつかのエラーを許可させます。 $(x_i,y_i)_{1\leq i\leq n}$ $i$ $x_i \in \mathbb{R}^p$ $y_i \in \{-1,1\}$ $m^*$ $\{x : w \cdot x + b = 0\}$ $w \in \mathbb{R}^p$ $b \in \mathbb{R}$ $x_1,\cdots,x_n$ $y = -1$ $y = 1$ $\xi_1,\cdots,\xi_n$ $-$ しかし、説明の便宜のために、我々はカーネルの可能性を無視します。解のパラメーターとは、次の凸2次最適化プログラムを解くことによって得られます。 $w^*$ $b^*$

\begin{aligned} min_{w, b, ξ_{1}, \dots, ξ_{n}} & \frac{1}{2} ‖ w ‖^{2} + C \sum_{i = 1}^{n} ξ_{i} \\ s.t. : & y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i} & , \forall i \in {1, \dots, n} \\ ξ_{i} \geq 0 & , \forall i \in {1, \dots, n} \end{aligned}

$\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; y_i(w\cdot x_i+b) \geq 1 - \xi_i \, & , \, \forall \, i \in \{1,\cdots,n\} \\ & \; \xi_i \geq 0\, & , \, \forall \, i \in \{1,\cdots,n\} \end{align}$

このマシンの汎化能力に興味があります。

Vapnik-Chervonenkisディメンション $VC$ ：

最初の結果は（Vapnik、2000）によるもので、彼は分離超平面の定理5.1のVC次元を制限しています。まかせ、我々は持っています： $R = \max_{x_i} \|x_i\|$

V C \leq min ({(\frac{R}{m^{*}})}^{2}, p) + 1

$VC \leq \min \left( \left( \frac{R}{m^*}\right)^2, \, p\right) + 1$

この結果は（Burges、1998）の定理6でも見つかります。ただし、ギャップ耐性の分類器として知られる分類器の特別なカテゴリを定義する必要があるため、バージェスの定理はVapnikによる同じ結果よりも制限的であるようです。 SVMが属する、定理を述べます。 $-$ $-$

エラーの確率の限界：

（Vapnik、2000年）の139ページの定理5.2は、SVMの汎化能力に次の制限を与えます。

E [P_{error}] \leq \frac{1}{n} E [min (p, n_{S V}, (R ‖ w ‖)^{2})]

$\mathbb{E}[P_{\text{error}}] \leq \frac{1}{n}\mathbb{E} \left[ \min\left(p,n_{SV},(R \, \|w\|)^2 \right) \right]$

ここで、はSVMのサポートベクトルの数です。この結果は、（Burges、1998）の式（86）と（93）に再び見つかるようです。しかし、繰り返しになりますが、バージックは上記の最小関数内のコンポーネントをさまざまな定理でさまざまな条件で分離しているため、バプニックとは異なるようです。 $n_{SV}$

（Vapnik、2000）p.133に現れた別の結果は次のとおりです。再び、すべての、とし、およびとすると、は次のように定義されます。 $i$ $\|x_i\|^2 \leq R^2$ $h \equiv VC$ $\epsilon \in [0,1]$ $\zeta$

ζ = 4 \frac{h (ln \frac{2 n}{h} + 1) - ln \frac{ϵ}{4}}{n}

$\zeta = 4 \frac{h\left( \text{ln}\frac{2n}{h} + 1\right) - \text{ln}\frac{\epsilon}{4}}{n}$

また、を、SVMによって誤って分類されたトレーニング例の数と定義します。次に、確率を使用して、テスト例がマージン超平面つまり、マージン持つSVMによって正しく分離されない確率には限界があると断言できます。 $n_{\text{error}}$ $1-\epsilon$ $m^*$ $-$ $m^*$ $-$

P_{error} \leq \frac{n_{error}}{n} + \frac{ζ}{2} (1 + \sqrt{1 + \frac{4 n_{error}}{n ζ}})

$P_{\text{error}} \leq \frac{n_{\text{error}}}{n} + \frac{\zeta}{2} \left( 1 + \sqrt{1+ \frac{4 \, n_{\text{error}}}{n \, \zeta}} \right)$

しかし、（Hastie、Tibshirani and Friedman、2009）p.438で、非常に類似した結果が見つかりました。

{Error}_{Test} \leq ζ

$\text{Error}_{\text{Test}} \leq \zeta$

結論：

これらの結果にはある程度の矛盾があるように思われます。一方、これらの参照のうち2つは、SVMの文献では標準的ですが、特に90年代半ばに始まったSVMアルゴリズムの研究を検討すると、わずかに古くなっています（1998および2000）。

私の質問は：

これらの結果は今日でも有効ですか、それとも間違っていることが判明しましたか？
それ以来、比較的緩い条件でより厳しい境界が導き出されていますか？もしそうなら、誰が、どこでそれらを見つけることができますか？
最後に、SVMに関する主な一般化結果を総合する参考資料はありますか？

参照：

バージス、JC（1998）。"パターン認識のためのサポートベクターマシンに関するチュートリアル"、データマイニングと知識の発見、2：121-167

Hastie、T.、Tibshirani、R.およびFriedman、J.（2009）。Elements of Statistical Learning、第2版、Springer

Vapnik、VN（1998）。Statistical Learning Theory、初版、John Wiley＆Sons

Vapnik、VN（1999）。"Statistical Learning Theoryの概要"、IEEE Transactions on Neural Networks、10（5）：988-999

Vapnik、VN（2000）。統計学習理論の性質、第2版、Springer

machine-learning svm vc-dimension

— ダニール・オリヴァー
ソース

SVMの最新の（2008年の）リスク範囲をまとめたリファレンス：「サポートベクターマシン」（Ingo Steinwart、Andreas Christmann、Springer 2008）。

— 登録

私はあなたが詳細に参照している文献を知りませんが、最新であるべき一般化の限界の包括的な要約はBoucheron et al。で見つけることができると思います。（2004）（リンク：https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-February-2-14-2003-Tuebingen-Germany-August-4-16-2003-Revised-Lectures.pdf＃page = 176）

詳細を省いて、証明するSVMの一部を以下に示します。

SVMバウンドについて具体的に説明する前に、一般化バウンドが達成しようとしていることを理解する必要があります。

まず、真の確率がわかっていると仮定すると、可能な最良の分類器はベイズ分類器、つまり $P(Y = +1| X = x)$

\begin{aligned} g * = {\begin{cases} + 1 i f P (Y = 1 | X = x) > 0.5 \\ - 1 o t h e r w i s e \end{cases} \end{aligned}

$\begin{align} g* = \begin{cases} + 1 \ \ if P(Y = 1| X = x) > 0.5 \\ -1 \ \ otherwise \end{cases} \end{align}$

統計学習理論の目標は、クラス分類（SVMなど）の違いを見つけることです。とベイ分類子、つまりはデータが与えられた場合の予想損失であり、はモデルクラスで可能な最良の分類子であることに注意してください。という用語は、推定エラーと呼ばれ、近似エラー（他の用語）よりもはるかに簡単に境界を設定できるため、多くの場合、フォーカスと呼ばれます。ここでは近似誤差も省略します。 $C$

\begin{aligned} {\hat{g}}_{n} = a r g min_{g \in C} L_{n} (g) \end{aligned}

$\begin{align} \hat{g}_n = arg \min_{g \in C} L_n(g) \end{align}$

\begin{aligned} L ({\hat{g}}_{n}) - L (g *) = L ({\hat{g}}_{n}) - L (g_{c}^{*}) + L (g_{c}^{*}) - L (g *) . \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g*) = L(\hat{g}_n) - L(g^{*}_c) + L(g^{*}_c) - L(g*). \end{align}$

L (g) = E l (g (X), Y)

$L(g) = \mathbb{E}l(g(X),Y)$

g_{c}^{*}

$g^{*}_c$

C

$C$

Z =: L (g *) - L ({\hat{g}}_{n})

$Z =: L(g*) - L(\hat{g}_n)$

推定誤差は、でさらに分解できますこれで、2つのステップで制限できます。 $Z$

\begin{aligned} Z = Z - E Z + E Z . \end{aligned}

$\begin{align} Z = Z - \mathbb{E}Z + \mathbb{E}Z. \end{align}$

バウンド McDiarmid不等式を使用 $Z - \mathbb{E}Z$
バインドされたとRademacherの複雑さ $\mathbb{E}Z$ $R_n(C) = \mathbb{E}sup_{g \in C}|1/n \sum_{i=1}^{n} l(g(X_i),Y_i)|$

McDiarmids不等式を使用すると、損失関数の範囲が以下の場合、ステップ1の結果はここで、は信頼水準です。2番目のステップでは、を示します。離散損失関数、つまり0-1などの非リプシッツがある場合-損失、Rademacher Complexityをさらに制限するにはVC-Dimensionが必要です。ただし、ヒンジ損失などのL-リプシッツ関数の場合、これはによってさらに制限できここで、 $B$

\begin{aligned} Z - E Z \leq 2 B \sqrt{\frac{l n (1 / δ)}{2 n}}, \end{aligned}

$\begin{align} Z - \mathbb{E}Z \leq 2 B \sqrt{\dfrac{ln(1/\delta)}{2n}}, \end{align}$

δ

$\delta$

\begin{aligned} E Z \leq 2 R_{n} (C), \end{aligned}

$\begin{align} \mathbb{E}Z \leq 2R_n(C), \end{align}$

\begin{aligned} R_{n} (C) \leq λ L R / \sqrt{n}, \end{aligned}

$\begin{align} R_n(C) \leq \lambda L R/\sqrt{n}, \end{align}$

λ

$\lambda$ 正則化を示します。Hinge-Lossおよび（Gauchy-Schwartz不等式で証明）の場合、これはさらに単純化されます。最後にすべての結果をまとめると、

L = 1

$L = 1$

B = 1 + λ R

$B = 1 + \lambda R$

\begin{aligned} L ({\hat{g}}_{n}) - L (g_{c}^{*}) \leq 2 (1 + λ R) \sqrt{\frac{l n (1 / δ)}{2 n}} + 4 λ L R / \sqrt{n} \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g^{*}_c) \leq 2(1 + \lambda R) \sqrt{\dfrac{ln(1/\delta)}{2n}} + 4 \lambda L R/\sqrt{n} \end{align}$

— dkoehn
ソース