私はランダムフォレストの機能の重要度を使用して、すべての機能がカテゴリカルであり、それらの多くに多くのレベル(100〜1000のオーダー)がある回帰問題の経験的な機能選択を実行しようとしました。ワンホットエンコーディングでは、各レベルにダミー変数が作成されるため、機能の重要性は各機能(列)ではなく、各レベルにあります。これらの機能の重要性を集計する良い方法は何ですか?
機能のすべてのレベルの平均の重要度を合計または取得することを考えました(おそらく、前者はより多くのレベルの機能に偏っています)。この問題に関する参考資料はありますか?
機能の数を減らすために他に何ができますか?私はグループなげなわを知っています、scikit-learnに使いやすいものを見つけることができませんでした。
カテゴリー変数の各レベルの変数の重要性を合計することが理にかなっているかどうかの質問に誰かが答えることができますか?
—
2018
@ see24ありませんあなたはちょうどそれらを合計することはできません。stats.stackexchange.com/questions/314567/...
—
ダン