線形モデル(線形回帰、ロジスティック回帰など)の場合、モデルのパフォーマンスを向上させるために、特徴エンジニアリングは重要なステップです。私の質問は、ランダムフォレストまたは勾配ブースティングを使用しているときに機能エンジニアリングを行うかどうかに関係ありますか?
これらのモデルがディープラーニングモデルではないことは間違いありません。しかし、機能エンジニアリング手法のいくつかは実際にはモデルを改善しないようです。たとえば、私は約200の特徴を含むバイナリ分類問題をやっていて、そのうちの20はカテゴリ特徴です。私は次のことをしました:
ベンチマーク:ランダムフォレスト分類器を元のデータに直接実行しました。AUCは約0.93、精度、再現率、Fスコアは約0.95です(statifiedKfold検証が適用されており、結果に非常に小さなばらつきがあるため、私は言った)
モデルを実行して、カイ2乗検定とANOVA f1検定を実行することにより、特徴の次元を削減しました。結果はほぼ同じです。AUCは約0.93、精度、再現率、Fスコアは約0.95です。
次に、すべてのカテゴリ機能をワンホットキーで入力し、モデルを再実行しましたが、結果はほぼ同じです。AUCは約0.93、精度、再現率、Fスコアは約0.95です。
次に、切り捨てられたSVDが適用されて機能がさらに削減され、モデルが再トレーニングされますが、結果は変わりません...
ついに私は多項式項、残りの特徴のクロス項を追加しました。結果はまだ変わっていません...
何か提案してください?ありがとうございました。