回答:
特徴エンジニアリングを行う方法についての明確な情報源はありません。多くの場合、解決しようとしている問題に依存しています。科学というより芸術だと言う人もいます。
しかし、可能であれば、私はいくつかの高得点のカグルカーネル/優勝ソリューションを検討します。ただ、頭の上kaggle競技を通って、ブラウズ。とても便利な資料がたくさんあります。
また、機械学習研究のジャーナルには、特徴エンジニアリングに関する多くの論文があります。彼らのサイトhttp://www.jmlr.org/で検索してください。
次のリンクは有用であり、言い換えれば長く続きます。
データ欠損の欠落:
完全なケース分析
平均/中央値/モード補完
ランダムサンプル代入
任意の値による置換
欠損値インジケーター
多変量補完
カテゴリーエンコーディング:
1つのホットエンコーディング
カウントと周波数エンコーディング
ターゲットエンコーディング/平均エンコーディング
序数エンコーディング
証拠の重み
レアラベルエンコーディング
BaseN、特徴ハッシュなど
変数変換:
対数
相互
平方根
指数関数的
ヨジョンソン
ボックスコックス
離散化:
等周波数離散化
等しい長さの離散化
木による離散化
ChiMergeによる離散化
外れ値の削除:
外れ値の削除
外れ値をNaNとして扱う
キャッピング、ウィンソリゼーション
機能スケーリング:
標準化
MinMaxスケーリング
平均スケーリング
最大絶対スケーリング
単位ノルムスケーリング
日付と時刻のエンジニアリング:
フィーチャーの作成:
トランザクションデータの集計:
テキストから特徴を抽出する:
言葉の袋
tfidf
N-グラム
word2vec
トピック抽出
そして最後に、画像から特徴を抽出します。
上記のテクニックのほとんどを説明する良い記事: 特徴エンジニアリング、包括的な概要
機能エンジニアリングについてさらに学ぶためのリソースの良いリスト: 機能エンジニアリングについて学ぶための最良のリソース
機能エンジニアリング用のPythonツールはこのスレッドにあります
免責事項:私は2つの記事を書き、機能エンジニアリングについて学ぶための推奨コースの1つの作成者でもあります。