私の質問は3つあります
「カーネル化された」サポートベクターマシンのコンテキストでは
- 変数/機能の選択は望ましいですか-特にパラメーターCを正規化して過剰適合を防止しているため、SVMにカーネルを導入する背後にある主な動機は問題の次元数を増やすことです。
- 最初の質問への回答が「いいえ」の場合、次に、どの条件で回答を変更すればよいのですか?
- Pythonのscikit-learnライブラリにSVMの機能削減をもたらすために試された良い方法はありますか?私はSelectFprメソッドを試して、さまざまな方法の経験を持つ人を探しています。
1
最初に最初の機能が非常に高品質にならない限り、機能の選択は常に役立ちます。Sklearnは、さまざまな機能選択ライブラリ(scikit-learn.org/stable/modules/feature_selection.html)を多数提供しています。私は自分自身でRFEを行うのが好きではありません。
—
デビッド
あなたはあなたのコンテキストに言及しませんでした-それがビジネスコンテキストにある場合、モデルに残るすべての機能はあるレベルでのメンテナンスを必要とすることに注意してください-より多くの変数がある場合、文字通りコストがかかるという意味で、たとえば、より多くのデータ収集作業、DBA時間、プログラミング時間を必要とします。この考慮事項は、Kaggleコンプなどの場合には当てはまりません。データセットで使用可能な機能をさらに200使用すると、パフォーマンスが0.01%向上します。
—
Robert de Graaf