330のサンプルと各サンプルに27の特徴を持つデータセットがあり、ロジスティック回帰のバイナリクラスの問題があります。
「10の場合のルール」によると、各機能を含めるには少なくとも10のイベントが必要です。しかし、私は20%の陽性クラスと80%の陰性クラスの不均衡なデータセットを持っています。
その結果、イベントは70件になり、ロジスティックモデルに含めることができる機能は約7/8だけになります。
すべての機能を予測変数として評価したいのですが、機能を手動で選択したくありません。
それであなたは何を提案しますか?7つの機能をすべて組み合わせる必要がありますか?アソシエーションモデルで各機能を単独で評価し、最終的なモデルに最適な機能のみを選択する必要がありますか?
カテゴリカルな機能と継続的な機能の扱いについても知りたいのですが、混在させることはできますか?カテゴリー[0-1]と連続[0-100]がある場合、正規化する必要がありますか?
私は現在Pythonを使用しています。
あなたの助けをありがとう!