ノンパラメトリック回帰の特徴選択の最良の方法


10

初心者向けの質問はこちら。私は現在、Rのnpパッケージを使用してノンパラメトリック回帰を実行しています。7つの機能と、ブルートフォースアプローチを使用して、ベスト3を特定しました。

私の質問は、ノンパラメトリック回帰の特徴選択の現在の最良の方法は何ですか?そして、パッケージがメソッドを実装している場合。ありがとうございました。


1
「もっと多く」100とはどういう意味ですか?1000?10000?100000?
ロビンジラール

たぶん、私は100個程度の機能を持っているでしょう。しかし、私はほんの数分で最良の機能サブセットを決定できます。
jmmcnew

1
投げ縄または弾性ネットを試しましたか?パッケージ:lasso、glmnet。これらのメソッドは、外出先でいくつかの変数を「選択」できます。
deps_stats 2011年

回答:


3

最も関連性の高い変数の特定が分析の主要な目的でない限り、特徴の選択をまったく行わず、正規化を使用して過剰適合を防ぐ方がよい場合がよくあります。特徴選択はトリッキーな手順であり、多くの自由度があるため、特徴選択基準を過剰に適合させることは非常に簡単です。LASSOとエラスティックネットは適切な妥協案です。直接的な機能選択ではなく正則化によってスパース性を実現するため、特定の形式の過剰適合が発生しにくくなります。


0

投げ縄は確かに良いものです。noneから始めて、「相互検証」を介して「usefullness」で並べ替えて1つずつ追加するような単純なことも、実際には非常にうまく機能します。これは、段階的フィードフォワード選択と呼ばれることもあります。

サブセット選択問題は、分類/回帰のタイプにかなり依存していることに注意してください。ノンパラメトリック手法は時間がかかる可能性があるため、よりインテリジェントな選択方法が必要になるだけです。

T. Hastieの「統計的学習の要素」という本は、すばらしい概観を提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.