約5000の機能のデータセットがあります。そのデータについて、私は最初に特徴の選択にカイ二乗検定を使用しました。その後、応答変数と有意な関係を示す変数を約1500個取得しました。
ここでロジスティック回帰を当てはめる必要があります。私はRにglmultiパッケージを使用しています(glmultiパッケージはvlmの効率的なサブセット選択を提供します)が、一度に30の機能しか使用できません。それ以外の場合、データセットの行数が約20000であるため、パフォーマンスが低下します。
上記の問題を解決する他のアプローチや手法はありますか?上記の方法で行くと、モデルを合わせるのに時間がかかりすぎます。
sklearn
のLogisticRegression
と、それは私のラップトップ上の分程度で4000個の機能20,000行の問題を解決します。