ディープラーニングで機能変換(パワー、ログ、Box-Cox)は必要ですか?


7

機械学習モデルに到達する前に、特定の一般的な特徴変換をデータセットに適用することが有益であると読みました。これらは、データセットの機能の分布に基づいています。たとえば、歪んだ正規分布機能にログ変換を適用します。ここにいくつかの例があります

私が理解しているように、ディープラーニングの主な恩恵は「自動特徴エンジニアリング」(別名「特徴学習」)です。機能の組み合わせも含まれます。しかし私の直感には、上記の学習された機能変換含まれていると言いますか?したがって、十分に調整されたハイパーを備えたディープネットワークを使用する場合、機能変換を人間の責任から安全に削除できます。つまり、このlog / square / box-coxのすべてのものを破棄しますか?

[編集]追加:これは、「機能の選択」(含まない入力の決定)も処理しますか?

回答:


1

経験則として、利用できるデータが多いほど、機能エンジニアリング(基本的に、ドメインの専門知識に基づいてモデルに事前知識を入力すること)を気にする必要が少なくなります。

理論的には(十分な数のサンプルがあれば)、畳み込みを使用せずにイメージネットを解くことができます。深いフィードフォワードネットワークのみです。しかし、ピクセルが空間的に相関している(つまり、畳み込みがこの問題に取り組むためのより良い方法となる)ことを知ることで、はるかにデータ効率の高いアルゴリズムを設計できます。


「特徴エンジニアリング」の素晴らしい説明。私の世界では、これは、可能な予測子のリストと開始モデルを提供するユーザーによって処理されます。次に、機能がテストされ、潜在的な構造が検出されると、楽しみが始まります。
IrishStat

0

したがって、機能エンジニアリングのala-box coxを表示する方法は、正規性を必要とするモデルがあり、通常のデータがないため、通常のデータに変換するためのものです。つまり、一方でニューラルネットワークは正規化されたデータを必要としないので、なぜ機能エンジニアなのでしょうか。一方、ニューラルネットは最終的にはそこに到達する可能性がありますが、人間が行う機能エンジニアリングが初期の収束率を大幅に向上させることがあります。たとえば、マルチチャネル信号データの場合、フーリエ逆圧縮を実行して相互相関を事前に計算すると、ニューラルネットが分類に到達する速度が大幅に向上します(本当に具体的な例を示すため)。または、より健全な例を示すために、データに多くの外れ値があり、それらが重要でないことがわかっている場合、外れ値を削除することは、機能エンジニアリングの一種です。ネットワークは最終的にそのとき無視することを学ぶことができますが、それは永遠にかかるかもしれません。したがって、変換がデータについて重要な何かを強調することになると確信している場合は、それを変換します。そうでない場合は、おそらくそうではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.