セマンティックな意味を保持するドメインに依存しない機能エンジニアリング?


12

機能エンジニアリングは、多くの場合、機械学習の重要なコンポーネントです(2010年にKDDカップで優勝するために頻繁に使用されまし)。しかし、ほとんどの機能エンジニアリング技術は

  • 基礎となる機能の直感的な意味を破壊する
  • 特定のドメインまたは特定の種類の機能に非常に固有です。

前者の典型的な例は、主成分分析です。主題の専門家が機能について持っている知識は、それらの機能を主成分に変換することによって破壊されるように思えます。

対照的に、日付を「月の日」と「曜日」の機能に変換する簡単な手法と比較してください。基本的な意味はまだ新しい機能に保持されていますが、明らかにこの特定の手法は日付にのみ適用され、任意の機能には適用されません。

基盤となる機能の意味を損なうことなく、任意のドメイン(または少なくともさまざまなドメイン)にも適用できる機能エンジニアリング技術の標準的な本体はありますか?


2
PCAを使用して、特徴の直感的な意味を見つけることができます(例:固有顔)
tdc

念頭に置いているデータの(もっと)例を挙げてもらえますか?アプリケーションについてより具体的に説明できる場合(任意の例も含めて)、正確な回答を(より)簡単に提供できます。
ドブ

1
@Dovさて、全体のポイントは、(理想的には)構造化された表形式のデータセット(データポイントと機能を備えたもの)で機能するものが欲しいということです。これは、売上データ、財務データ、創薬データ、野球データ、などかもしれないので
マイケル・マッゴーワン

回答:


7

私は、あなたが説明するようなシナリオで役立つ可能性のある1つの分解方法を知っています(しかし、もっとあるかもしれません...)。これは2D-PCAに似ています-分解(つまり、要因)が何らかの意味を持つ高次分解法です。例を見て、それについてここここで読んここを試してみてください。


+私は英語が母国語ではないことをご容赦ください:)
Dov

私が言われたことから、PCAの最後のステップは、主要なコンポーネントの意味を見つける試みです。
jb。

5

Restricted Boltzmann Machineを使用した最近の深層学習方法は、いくつかのデータタイプ(オーディオ、画像、テキスト)で優れた機能を示しています。

これらのメソッドは生成モデルを作成するため、多くの場合、モデルから本当に素晴らしいサンプルを生成できます。

ヒントンの出版物をご覧ください。 http://www.cs.toronto.edu/~hinton/

これらのメソッドは完全に一般的ではありません(すべてのデータで同じコードを実行します)が、基になるモデルは通常似ています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.