特徴エンジニアリング手法のリスト


回答:


10

特徴エンジニアリングを行う方法についての明確な情報源はありません。多くの場合、解決しようとしている問題に依存しています。科学というより芸術だと言う人もいます。

しかし、可能であれば、私はいくつかの高得点のカグルカーネル/優勝ソリューションを検討します。ただ、頭の上kaggle競技を通って、ブラウズ。とても便利な資料がたくさんあります。

また、機械学習研究のジャーナルには、特徴エンジニアリングに関する多くの論文があります。彼らのサイトhttp://www.jmlr.org/で検索してください

次のリンクは有用であり、言い換えれば長く続きます。

  • 機能エンジニアリングのいくつかのベストプラクティスに関するいくつかの情報はQuoraにあります。このリンクを参照してください
  • 機械学習の習熟度には 機能エンジニアリングに関するこのページがあります

3

データ欠損の欠落:

  1. 完全なケース分析

  2. 平均/中央値/モード補完

  3. ランダムサンプル代入

  4. 任意の値による置換

  5. 欠損値インジケーター

  6. 多変量補完

カテゴリーエンコーディング:

  1. 1つのホットエンコーディング

  2. カウントと周波数エンコーディング

  3. ターゲットエンコーディング/平均エンコーディング

  4. 序数エンコーディング

  5. 証拠の重み

  6. レアラベルエンコーディング

  7. BaseN、特徴ハッシュなど

変数変換:

  1. 対数

  2. 相互

  3. 平方根

  4. 指数関数的

  5. ヨジョンソン

  6. ボックスコックス

離散化:

  1. 等周波数離散化

  2. 等しい長さの離散化

  3. 木による離散化

  4. ChiMergeによる離散化

外れ値の削除:

  1. 外れ値の削除

  2. 外れ値をNaNとして扱う

  3. キャッピング、ウィンソリゼーション

機能スケーリング:

  1. 標準化

  2. MinMaxスケーリング

  3. 平均スケーリング

  4. 最大絶対スケーリング

  5. 単位ノルムスケーリング

日付と時刻のエンジニアリング:

  1. 日、月、年、四半期、経過時間の抽出

フィーチャーの作成:

  1. 合計、減算、平均、最小、最大、積、機能グループの商

トランザクションデータの集計:

  1. 上記と同じですが、同じ時間枠で機能します

テキストから特徴を抽出する:

  1. 言葉の袋

  2. tfidf

  3. N-グラム

  4. word2vec

  5. トピック抽出

そして最後に、画像から特徴を抽出します。

上記のテクニックのほとんどを説明する良い記事: 特徴エンジニアリング、包括的な概要

機能エンジニアリングについてさらに学ぶためのリソースの良いリスト: 機能エンジニアリングについて学ぶための最良のリソース

機能エンジニアリング用のPythonツールはこのスレッドにあります

免責事項:私は2つの記事を書き、機能エンジニアリングについて学ぶための推奨コースの1つの作成者でもあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.