サポートベクターマシンの一般化能力の理論的な結果、たとえば分類エラーの確率やこれらのマシンのVapnik-Chervonenkis(VC)次元の限界に興味があります。しかし、文献を読んでいると、同じような定期的な結果の一部は著者間で、特に特定の拘束力を維持するために必要な技術的条件に関して、わずかに異なる傾向があるという印象を受けました。
以下では、私は私が反復的に何らかの形で発見したことを主な汎化結果のSVMの問題と状態3の構造を思い出すだろう私は博覧会を通して、主に3つの参照を与えます。
問題の設定:
独立して同一に分布した(iid)ペアデータサンプルがあるとしますここで、すべての、と。、および定義される分離超平面間の最小マージンを最大化するサポートベクターマシン(SVM)を構築します、および間の最も近い点。これにより、および定義された2つのクラスが分離されます。SVMに、スラック変数を導入することにより、ソフトマージンを介していくつかのエラーを許可させます。 しかし、説明の便宜のために、我々はカーネルの可能性を無視します。解のパラメーターとは、次の凸2次最適化プログラムを解くことによって得られます。
このマシンの汎化能力に興味があります。
Vapnik-Chervonenkisディメンション:
最初の結果は(Vapnik、2000)によるもので、彼は分離超平面の定理5.1のVC次元を制限しています。まかせ、 我々は持っています:
この結果は(Burges、1998)の定理6でも見つかります。ただし、ギャップ耐性の分類器として知られる分類器の特別なカテゴリを定義する必要があるため、バージェスの定理はVapnikによる同じ結果よりも制限的であるようです。 SVMが属する、定理を述べます。
エラーの確率の限界:
(Vapnik、2000年)の139ページの定理5.2は、SVMの汎化能力に次の制限を与えます。
ここで、はSVMのサポートベクトルの数です。この結果は、(Burges、1998)の式(86)と(93)に再び見つかるようです。しかし、繰り返しになりますが、バージックは上記の最小関数内のコンポーネントをさまざまな定理でさまざまな条件で分離しているため、バプニックとは異なるようです。
(Vapnik、2000)p.133に現れた別の結果は次のとおりです。再び、すべての、とし、およびとすると、は次のように定義されます。
また、を、SVMによって誤って分類されたトレーニング例の数と定義します。次に、確率を使用して、テスト例がマージン超平面つまり、マージン持つSVMによって正しく分離されない確率には限界があると断言できます。
しかし、(Hastie、Tibshirani and Friedman、2009)p.438で、非常に類似した結果が見つかりました。
結論:
これらの結果にはある程度の矛盾があるように思われます。一方、これらの参照のうち2つは、SVMの文献では標準的ですが、特に90年代半ばに始まったSVMアルゴリズムの研究を検討すると、わずかに古くなっています(1998および2000)。
私の質問は:
- これらの結果は今日でも有効ですか、それとも間違っていることが判明しましたか?
- それ以来、比較的緩い条件でより厳しい境界が導き出されていますか?もしそうなら、誰が、どこでそれらを見つけることができますか?
- 最後に、SVMに関する主な一般化結果を総合する参考資料はありますか?
参照:
バージス、JC(1998)。"パターン認識のためのサポートベクターマシンに関するチュートリアル"、データマイニングと知識の発見、2:121-167
Hastie、T.、Tibshirani、R.およびFriedman、J.(2009)。Elements of Statistical Learning、第2版、Springer
Vapnik、VN(1998)。Statistical Learning Theory、初版、John Wiley&Sons
Vapnik、VN(1999)。"Statistical Learning Theoryの概要"、IEEE Transactions on Neural Networks、10(5):988-999