多くの深層学習モデルは、トレーニング中に生の入力データから独自の機能を学習します(たとえば、画像の2D畳み込みニューラルネットワーク)。したがって、多くの場合、モデルに変数を明示的に渡すことについて心配する必要さえありません。他のいくつかのケースでは、まだ機能が必要ですが、コア機能(たとえば、NLP内の単語)のみが必要です。これらの特徴は、類似性を取り込む埋め込み空間内のベクトルとして表されます(たとえば、「大統領」は「オバマ」に近い)。埋め込みスペースは、教師なしの事前トレーニング(word2vec、glove)から取得されるか、ランダムに初期化され、バックプロパゲーションを介してトレーニング中にベクトルが調整されます。ネットワークのアーキテクチャは、「悪くない、かなり良い」と「良くない」の違いなど、機能の組み合わせを学習する責任があります。
ゴールドバーグY.(2015)のセクション3の「機能の組み合わせ」の段落。自然言語処理のためのニューラルネットワークモデルの入門書。Journal of Artificial Intelligence Research、57、345-420。これは非常によく説明されています(セクション3全体を読むことをお勧めします)。
組み合わせモデルは、入力により多くの次元を導入し、データポイントが線形分離可能に近い空間に変換するため、線形モデルでは非常に重要です。一方、可能な組み合わせのスペースは非常に大きく、機能の設計者は、機能の組み合わせの効果的なセットを考え出すために多くの時間を費やす必要があります。非線形ニューラルネットワークモデルの約束の1つは、コア機能のみを定義する必要があることです。ネットワーク構造によって定義された分類子の非線形性は、特徴的な組み合わせの発見に注意を払い、特徴の組み合わせエンジニアリングの必要性を軽減することが期待されています。