機能エンジニアリングのチュートリアル


19

すべての人に知られているように、機能工学は機械学習にとって非常に重要ですが、この分野に関連する資料はほとんど見つかりませんでした。Kaggleのいくつかのコンテストに参加しましたが、場合によっては、優れた機能が優れた分類器よりも重要であると考えています。誰かが機能エンジニアリングに関するチュートリアルを知っていますか、それともこの純粋な経験ですか?


1
機能の前処理(正規化およびその他の変換)または機能選択を意味しますか?
MattBagg

2
@ mb3041023いいえ、両方の前のステップで、テキスト、画像、シリーズなどの生データを使用可能な属性に変換します。

8
私の経験では、機械学習の問題の大部分は、文字通り、解決/最適化される正しい問題(つまり、機能、機能表現、選択など)を設定することです。私は、経験的な特徴選択と多くの実生活のイラスト(カグルのような)を使った前処理に純粋に捧げられた本を見たいです。誰かがそれを知っていれば、pls。役職。データクリーニング/データ補完などの専門の書籍がいくつかありますが、機能の選択に関する専用の実用的なテキストが非常に必要です。
パット

2
「機能の抽出:基礎とアプリケーション」、2006
-jasonb

2
@jasonb、著者、サイズ、価格、リンクなど、Guyon ed。、Feature Extraction:Foundations and Applications 2006、778p、$ 306
denis

回答:


7

私は経験を言うだろう-基本的なアイデアは次のとおりです。

  • 分類子の機能に合わせて。ジオメトリ問題をツリーに与え、特大の次元をkNNに、間隔データをSVMに与えるのは良い考えではありません
  • 可能な限り多くの非線形性を取り除きます。何らかの分類器が内部でフーリエ解析を行うことを期待するのはかなり単純です(たとえそれがそこに多くの複雑さを浪費するとしても)
  • チェーン内のいくつかのサンプリングがそれらをノックアウトしないように、機能をすべてのオブジェクトに対して汎用にします
  • 以前の作品を確認してください-多くの場合、視覚化または類似のタイプのデータのテストに使用される変換は、興味深い側面を明らかにするためにすでに調整されています
  • 過剰適合につながる可能性のある、PCAのような不安定で最適化された変換を避ける
  • たくさん実験する

「間隔データ」をどのように定義しますか?Googleで検索したところ、さまざまな定義が見つかりました。
パワー

PCAポイントについて詳しく説明できますか?
ダニエルヴェルコフ

@powerインスタンスのように設定 バツ と決定 |バツ最も近い素数|<0.3、つまり、属性を単純な連続変換ではなく、多くの間隔で分割する必要がある場合。

@DanielVelkovかなりノイズの多いデータでPCAをブートストラップすると、コンポーネントが不安定になることがよくあります。これにより、利用可能なセット全体で1つのグローバルPCAを作成するというアイデアが促進されます。これは、情報を漏らすものであり、評価を台無しにする直接的な方法です。

@mbq PCAがトレーニングセットでのみ実行されるとしたらどうでしょうか?
ダニエルヴェルコフ

1

O'Reillyから、Zheng et alによる「機械学習のための機能エンジニアリング」という本があります

この本を読んで、さまざまな種類のデータ(カテゴリ、テキストなど)を取り上げ、それに付随する機能エンジニアリングのさまざまな側面について説明します。これには、データの正規化、機能選択、テキスト内のtf-idfなどが含まれます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.