1)ほとんどのニューラルネットワークは乗算を実行できません。合計のみを計算できます(合計は、アクティベーション関数を介して個別に供給されます)。それらが重要である場合、代わりにそれらの乗算を推定する必要があり、特に要因が広い範囲に及ぶことができる場合、多くのニューロンが必要です。
家のエリアが実際に重要な機能であることが判明した場合、エリアを提供するとネットワークを支援します。幅と長さの乗算を推定するために必要なニューロンを使用できるためです。他のことをするために。
したがって、多項式の特徴を含めることは、ネットワークにとって有益な場合もありますが、他の場合では大きな効果はありません。さらに、多項式特徴は、ネットワークに役立つ可能性がある派生特徴の1つのタイプにすぎません。役に立つと判明する可能性のある別のタイプの派生機能は、たとえば、入力変数の対数(正と見なされます)であり、ネットワークも取得するために推定する必要があります。
アイデアは、ネットワークが加算だけでなく数字間でより多くの演算を実行できるようにして、多項式の特徴自体のようなものを効率的に計算できるようにすることですが、それがどのように機能するかは明確ではありません。同様のことを行うように見える1つのアーキテクチャは、和積ネットワークです。
2)ジョンが述べた計算コストを除き、より多くの入力を導入すると避けられないモデル内のパラメーター数の増加は、特にトレーニングデータが少ない場合にネットワークがオーバーフィットするリスクも増加させます。
ただし、適切な正則化方法が使用されている場合、これははるかに少ない問題になります。(ドロップアウトはそのために非常にうまく機能するようです)理論的には、十分な正則化方法で、過剰適合はまったく問題になりません。ヒントンが指摘しているように、人間は脳内に10 ^ 14のオーダーのシナプスを持っています(ニューラルネットワークの接続に対応します)が、10 ^ 9秒のオーダーでしか生きていませんが、非常によく一般化します。したがって、適切なアルゴリズムを使用して調整できる多くのパラメーターを用意することは利点にすぎません。