SVMを使用する場合、なぜ機能を拡張する必要があるのですか？

scikit-learn のStandardScalerオブジェクトのドキュメントによると：

たとえば、学習アルゴリズムの目的関数で使用される多くの要素（サポートベクターマシンのRBFカーネル、線形モデルのL1およびL2正則化器など）は、すべての特徴が0を中心とし、同じ順序で分散があると仮定します。ある特徴の分散が他のものよりも桁違いに大きい場合、それは目的関数を支配し、推定量が期待どおりに他の特徴から正しく学習できなくなる可能性があります。

分類する前に機能をスケーリングする必要があります。なぜこれを行うべきなのかを示す簡単な方法はありますか？科学論文への参照はさらに良いでしょう。私はすでに見つかったものを他の多くのは、おそらくあります。

— scallywag
ソース

回答:

すべてのカーネルメソッドは距離に基づいています。RBFカーネル関数は（を使用してシンプルさ）。 $\kappa(\mathbf{u},\mathbf{v}) = \exp(-\|\mathbf{u}-\mathbf{v}\|^2)$ $\gamma=1$

与えられた3つの特徴ベクトル：

x_{1} = [1000, 1, 2], x_{2} = [900, 1, 2], x_{3} = [1050, - 10, 20] .

$\mathbf{x}_1 = [1000, 1, 2], \quad \mathbf{x}_2 = [900, 1, 2], \quad \mathbf{x}_3 = [1050, -10, 20].$

次に、であることをにおそらくより類似しているその後に。 $\kappa( \mathbf{x}_1, \mathbf{x}_2) = \exp(-10000) \ll \kappa(\mathbf{x}_1, \mathbf{x}_3) = \exp(-2905)$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$

と：の相対的な違い $\mathbf{x}_1$

x_{2} \to [0.1, 0, 0], x_{3} \to [0.05, - 10, 10] .

$\mathbf{x}_2 \rightarrow [0.1, 0, 0],\quad \mathbf{x}_3 \rightarrow [0.05, -10, 10].$

だから、スケーリングせずに、私たちは、と結論付けてに似ているより、たとえ間の機能ごとに相対的な差異とはおよびものよりもはるかに大きい。 $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_1$ $\mathbf{x}_2$

言い換えると、すべての特徴を比較可能な範囲にスケーリングしない場合、最大の範囲を持つ特徴がカーネル行列の計算で完全に支配されます。

これを説明する簡単な例は、次のペーパーにあります。サポートベクトル分類の実践ガイド（セクション2.2）。

— マーク・クリーセン
ソース

また、正則化についても検討する必要があります。重みのスケールは入力のスケールに依存します...

— seanv507

正則化の効果は、スケーリングが異なると、最適なも異なることを意味します。これは、この特定の問題に対してある程度直交しています。

C

$C$

— Marc Claesen、2015年

しかし、実際には、1つの次元に沿った近接性がより重要である可能性があります。したがって、目標はすべてのフィーチャに同じ差異を持たせることではなく、すべてのフィーチャに沿った距離がタスクに対してほぼ同じ重要性を持つようにスケーリングすることです。

— isarandi

@Marc Claesen、変数の桁数が異なる場合、重みも桁違いになり、l2ノルムは分散が小さく、それに応じて重みが大きい入力に焦点を合わせます。別の言い方をすれば、重みノルムの正則化により、「小さな」入力が小さな効果を持つことが保証されます。これは、たとえば変数を正規化することによって（入力全体で）「小さい」を標準化した場合にのみ意味があります

— seanv507

線形SVMにのみ適用される@ seanv507。

— Marc Claesen、2015年

使用しているカーネルによって異なります。これまでで最も一般的に使用されている（線形を除く）は、次の形式のガウスカーネルです。

f = e x p (\frac{- | | x_{1} - x_{2} | |^{2}}{2 σ^{2}})

$f = exp \left ( \frac{- || x{_{1}} - x{_{2}} || ^2 }{2\sigma ^2} \right )$

SVMはこの関数を受け取り、それを使用してポイント（）の類似性をトレーニングセット内の他のすべてのポイントと比較します。 $x1$

(x_{1} - l_{1})^{2} + (x_{2} - l_{2})^{2} . . . + (x_{n} - l_{n})^{2}

$(x{_{1}}-l{_{1}})^2+(x{_{2}}-l{_{2}})^2...+(x{_{n}}-l{_{n}})^2$

ここで、は例であり、の値はランドマークです。 $x$ $l$

機能範囲が0〜50,000で、機能範囲が0〜0.01の場合、が合計を支配することがわかります。による影響はほとんどありません。このため、カーネルを適用する前に機能をスケーリングする必要があります。 $x{_{1}}$ $x{_{2}}$ $x{_{1}}$ $x{_{2}}$

詳細については、スタンフォードオンラインコースのCourseraの機械学習のモジュール12（サポートベクターマシン）をお勧めします（無料でいつでもご利用いただけます）：https : //www.coursera.org/course/ml

— ralph346526
ソース