カーネル化されたSVMを扱うときに、なぜ人々は2次計画法(SMOなど)を使用するのですか?Gradient Descentの何が問題になっていますか?カーネルで使用することは不可能ですか、それとも遅すぎますか(およびその理由)。
ここにもう少しコンテキストがあります:SVMをもう少しよく理解しようとして、私は次のコスト関数を使用して線形SVM分類器を訓練するために勾配降下を使用しました:
私は次の表記法を使用しています:
- はモデルの特徴の重みであり、はそのバイアスパラメーターです。
- は、トレーニングインスタンスの特徴ベクトルです。
- は、インスタンスのターゲットクラス(-1または1)です。
- はトレーニングインスタンスの数です。
- は正則化ハイパーパラメーターです。
この方程式から(およびに関して)(サブ)勾配ベクトルを導き出しましたが、勾配降下はうまく機能しました。
ここで、非線形問題に取り組みたいと思います。コスト関数ですべてのドット積をに置き換えることができますはカーネル関数です(たとえば、ガウスRBF、)、計算を使用して導出(サブ)勾配ベクトルと勾配降下を進めますか?
遅すぎる場合、それはなぜですか?コスト関数は凸型ではありませんか?それとも、勾配の変化が速すぎて(リプシッツ連続ではない)、降下中にアルゴリズムが谷間をジャンプし続けるため、収束が非常に遅いためですか?しかし、それでも、二次計画法の時間の複雑さであるO({n_ \ text {samples}} ^ 2 \ times n_ \ text {features})よりも悪化する可能性はありますか?極小の問題であれば、アニーリングをシミュレートしたストキャスティックGDはそれらを克服できませんか?