ほとんどが相関性が高く、非常にノイズが多い(たとえばテクニカルインジケーター)ほとんどが金融変数(120の機能、4 kの例)のデータセットがあるため、モデルトレーニング(バイナリ分類)で使用するために最大20-30を選択したいと思います-増加/減少)。
機能のランキングにランダムフォレストを使用することを考えていました。それらを再帰的に使用するのは良い考えですか?たとえば、最初のラウンドで最悪の20%をドロップし、2番目も同様に、目的の数の機能を取得するまで続けます。RFで相互検証を使用する必要がありますか?(CVを使用しないのは直感的です。なぜなら、CVはRFで既に行われていることだからです。)
また、ランダムフォレストを使用する場合、機能の重要性を取得するために、実際の増加/減少のバイナリまたはリグレッサーの分類子として使用する必要がありますか?
ちなみに、特徴選択後に試してみたいモデルは、SVM、ニューラルネット、局所加重回帰、ランダムフォレストです。私は主にPythonで働いています。
built-in
の属性RandomForestClassifierで sklearn
呼ばれるがfeature_importances_
......?リンクに表示されます。