派生機能がニューラルネットワークで使用されるのはなぜですか？

13

たとえば、家の価格を予測し、家の長さと幅の2つの入力フィーチャがあるとします。場合によっては、長さ*幅である面積などの「派生」多項式入力フィーチャも含まれます。

1）派生フィーチャを含める意味は何ですか？ニューラルネットワークは、トレーニング中に長さ、幅、価格の関係を学習するべきではありませんか？3番目の機能、エリア、冗長性がないのはなぜですか？

さらに、入力フィーチャに対して数を減らすために、人々が遺伝的選択アルゴリズムを実行することもあります。

2）入力フィーチャにすべて有用な情報が含まれている場合、入力フィーチャを減らすポイントは何ですか？ニューラルネットワークは、重要度に応じて各入力フィーチャに適切な重みを割り当てるべきではありませんか？遺伝的選択アルゴリズムを実行する意味は何ですか？

machine-learning neural-networks

— サイアミ
ソース

8

$n$ $l$ $n*l$ $n*l$

2）：これには2つの理由があります。まず、何千もの機能が提供されており（実際のデータでよく見られるように）、トレーニングのCPU時間も短い（これもよくあることです）場合、さまざまな機能選択アルゴリズムを使用して機能空間を削減できますあらかじめ。これに対する原則的なアプローチは、多くの場合、情報理論的手段を使用して、最も高い予測力を持つ特徴を選択します。第二に、あなたが持っているすべてのデータとすべての機能を訓練する余裕があるとしても、ニューラルネットワークはしばしば「ブラックボックス」モデルであると批判されます。事前に機能スペースを減らすことで、この問題を軽減できます。たとえば、NNを見ているユーザーは、0.01の重みが「0を意味するが、最適化プロセスがそこまで到達しなかった」または「

— ジョン・ドゥシェット
ソース

0

1）ほとんどのニューラルネットワークは乗算を実行できません。合計のみを計算できます（合計は、アクティベーション関数を介して個別に供給されます）。それらが重要である場合、代わりにそれらの乗算を推定する必要があり、特に要因が広い範囲に及ぶことができる場合、多くのニューロンが必要です。

家のエリアが実際に重要な機能であることが判明した場合、エリアを提供するとネットワークを支援します。幅と長さの乗算を推定するために必要なニューロンを使用できるためです。他のことをするために。

したがって、多項式の特徴を含めることは、ネットワークにとって有益な場合もありますが、他の場合では大きな効果はありません。さらに、多項式特徴は、ネットワークに役立つ可能性がある派生特徴の1つのタイプにすぎません。役に立つと判明する可能性のある別のタイプの派生機能は、たとえば、入力変数の対数（正と見なされます）であり、ネットワークも取得するために推定する必要があります。

アイデアは、ネットワークが加算だけでなく数字間でより多くの演算を実行できるようにして、多項式の特徴自体のようなものを効率的に計算できるようにすることですが、それがどのように機能するかは明確ではありません。同様のことを行うように見える1つのアーキテクチャは、和積ネットワークです。

2）ジョンが述べた計算コストを除き、より多くの入力を導入すると避けられないモデル内のパラメーター数の増加は、特にトレーニングデータが少ない場合にネットワークがオーバーフィットするリスクも増加させます。

ただし、適切な正則化方法が使用されている場合、これははるかに少ない問題になります。（ドロップアウトはそのために非常にうまく機能するようです）理論的には、十分な正則化方法で、過剰適合はまったく問題になりません。ヒントンが指摘しているように、人間は脳内に10 ^ 14のオーダーのシナプスを持っています（ニューラルネットワークの接続に対応します）が、10 ^ 9秒のオーダーでしか生きていませんが、非常によく一般化します。したがって、適切なアルゴリズムを使用して調整できる多くのパラメーターを用意することは利点にすぎません。

— ハローグッバイ
ソース