実際には、属性の数が観測の数よりも多い場合でも、SVMが過剰適合に抵抗する傾向があるのは、正規化を使用しているためです。過剰適合を回避するための鍵は、正則化パラメーター慎重な調整にあり、非線形SVMの場合、カーネルの慎重な選択とカーネルパラメーターの調整にあります。C
SVMは一般化誤差の境界の近似実装であり、マージン(基本的には決定境界から各クラスの最も近いパターンまでの距離)に依存しますが、特徴空間の次元には依存しません(そのためです)カーネルトリックを使用してデータを非常に高次元の空間にマッピングすることは、考えられるほど悪い考えではありません)。そのため、原則として SVMは過剰適合に対して高い耐性を備えている必要がありますが、実際には、これはとカーネルパラメーターの慎重な選択に依存します。残念ながら、ハイパーパラメーターを調整するときにオーバーフィッティングも非常に簡単に発生する可能性があります。これは私の主な研究分野です。C
GC CawleyおよびNLC Talbot、ハイパーパラメータのベイズ正則化によるモデル選択の過剰適合の防止、Journal of Machine Learning Research、第8巻、841〜861ページ、2007年4月。(www)
そして
GC CawleyおよびNLC Talbot、モデル選択の過剰適合とパフォーマンス評価におけるその後の選択バイアス、Journal of Machine Learning Research、2010年。Research、vol。11、pp。2079-2107、2010年7月。(www)
これらの論文はどちらもSVMではなくカーネルリッジ回帰を使用していますが、SVMでも同じ問題が簡単に発生します(KRRにも同様の境界が適用されるため、実際にそれらを選択することはあまりありません)。ある意味では、SVMは過剰適合の問題を実際に解決するのではなく、問題をモデルの適合からモデルの選択にシフトするだけです。
多くの場合、最初に何らかの機能選択を実行することで、SVMの生活を少し楽にしたいという誘惑に駆られます。SVMとは異なり、属性の数が増えると、特徴選択アルゴリズムは過剰適合を示す傾向があるため、これは一般に事態を悪化させます。どちらが有益な属性であるかを知りたくない場合は、通常、機能の選択手順をスキップして、正規化を使用してデータの過剰適合を回避することをお勧めします。
つまり、正則化パラメーターが適切に調整されていれば、120個の観測値と数千の属性を持つ問題でSVM(またはリッジ回帰、LARS、Lasso、エラスティックネットなどの他の正則化モデル)を使用することに固有の問題はありません。