ディープネットの基底展開はどのくらい重要ですか？

8

ディープニューラルネットがユニバーサル関数近似法であると考えられる場合、基底展開は本当に必要ですか？または、これはケース固有ですか？たとえば、3つの定量的X変数がある場合、交互作用、多項式などを導入することによって変数の数を拡張することで何か利点がありますか？これは、RFやSVMなどで優れたユーティリティを持っているようですが、これがニューラルネットの優れた戦略になるかどうかはわかりません。

これが広すぎるか漠然としている場合、ディープネットのコンテキストでの基底の拡張と機能エンジニアリングに関するいくつかの関連情報を誰かに教えてもらえますか？

neural-networks deep-learning feature-construction

— srhoades10
ソース

8

ディープニューラルネットワークのアイデアは、機能エンジニアリングを自動的に実行できることです。（ディープラーニングブックの最初の章を参照してください。）最初の章を読むことを強くお勧めします。

基底展開を行うことは本当に必要ではなく、まれに使用されます。ディープネットは通常、生の特徴を入力として受け取ります。（少なくとも）数千ピクセルの画像の場合、ニューラルにフィードする前に基本展開（たとえば、高次多項式展開）を効果的に実行することもできません。通信網。

実際、ディープニューラルネットワークにはいくつかの演算があり、基底展開と見なすことができます。

畳み込み層は、フーリエ基底展開で特徴エンジニアリングを行うものと見なすことができます。私の質問を参照してください：畳み込みニューラルネットワークの背後にある直感は何ですか？
ReLUは、区分的線形フィット（スプライン基準）を実行していると見なすことができます。

— ハイタオドゥ
ソース

1

同意した。モデル作成者が予測子と応答の関係の関数形式をある程度演繹的に理解している場合は、非表示のレイヤーを完全に回避することをお勧めします。つまり、「バニラ」回帰または分類。また、基底展開パラメーターを追加すると、このようなアプローチは過剰適合しやすくなると思います。ニューラルネットワークに典型的な正則化手法は、これらのパラメーターの（意図的またはその他の）ノイズマイニングに対して何もしません。

— Josh

@ hxd1011とJoshに感謝します。これらは役立つポイントです。活性化関数がNNに非線形性を導入することは知っていましたが、非線形効果を "手動で"導入しようとすることによって、ルーチン回帰設定に共通する懸念をどのように処理するかについては本当に考えていなかったと思います。

— srhoades10

6

多くの深層学習モデルは、トレーニング中に生の入力データから独自の機能を学習します（たとえば、画像の2D畳み込みニューラルネットワーク）。したがって、多くの場合、モデルに変数を明示的に渡すことについて心配する必要さえありません。他のいくつかのケースでは、まだ機能が必要ですが、コア機能（たとえば、NLP内の単語）のみが必要です。これらの特徴は、類似性を取り込む埋め込み空間内のベクトルとして表されます（たとえば、「大統領」は「オバマ」に近い）。埋め込みスペースは、教師なしの事前トレーニング（word2vec、glove）から取得されるか、ランダムに初期化され、バックプロパゲーションを介してトレーニング中にベクトルが調整されます。ネットワークのアーキテクチャは、「悪くない、かなり良い」と「良くない」の違いなど、機能の組み合わせを学習する責任があります。

ゴールドバーグY.（2015）のセクション3の「機能の組み合わせ」の段落。自然言語処理のためのニューラルネットワークモデルの入門書。Journal of Artificial Intelligence Research、57、345-420。これは非常によく説明されています（セクション3全体を読むことをお勧めします）。

組み合わせモデルは、入力により多くの次元を導入し、データポイントが線形分離可能に近い空間に変換するため、線形モデルでは非常に重要です。一方、可能な組み合わせのスペースは非常に大きく、機能の設計者は、機能の組み合わせの効果的なセットを考え出すために多くの時間を費やす必要があります。非線形ニューラルネットワークモデルの約束の1つは、コア機能のみを定義する必要があることです。ネットワーク構造によって定義された分類子の非線形性は、特徴的な組み合わせの発見に注意を払い、特徴の組み合わせエンジニアリングの必要性を軽減することが期待されています。

— アントワーヌ
ソース