トポロジに制限が設定されているため、ニューラルネットワークのパフォーマンスが向上するように見えるのはなぜですか？

29

完全に接続された（少なくとも2つ以上の隠れ層がある層から層へ）バックプロップネットワークは、普遍的な学習者です。残念ながら、彼らはしばしば学習が遅く、過度に適合したり、扱いにくい一般化を持つ傾向があります。

これらのネットワークにだまされてから、エッジの一部を枝刈りすることで（重みがゼロで変更できないように）、ネットワークの学習が速くなり、一般化が促進される傾向があることを確認しました。これには理由がありますか？それは、ウェイト検索スペースの次元の減少のためだけですか、それとももっと微妙な理由がありますか？

また、より良い一般化は、私が見ている「自然な」問題の成果物ですか？

machine-learning network-topology neural-networks

— アルテム・カズナチェフ
ソース

9

ノード/エッジ（または重みが固定されたエッジ）が少ないということは、値を見つける必要のあるパラメーターが少ないことを意味し、通常、学習にかかる時間が短縮されます。また、パラメーターが少ない場合、ニューラルネットワークで表現できる空間の次元が小さくなるため、ニューラルネットワークはより一般的なモデルのみを表現できます。したがって、データを過剰に適合させる能力が低いため、モデルはより一般的になります。

— デイブ・クラーク
ソース

5

エッジを枝刈りすることにより、トレーニングアルゴリズムの検索スペースが削減され、時間パフォーマンスが即座に向上します。また、ネットワークがモデル化できる機能に制約を導入しました。制約により、モデルはより一般的な解決策を見つけることを余儀なくされる可能性があります。これは、より正確な解決策には到達できないためです。ニューラルネットワークをトレーニングする一般的な方法は、勾配降下法を使用することです。枝刈りのもう1つの結果は、パラメーターランドスケープの局所的最小値を削除したことです。これにより、トレーニングアルゴリズムがより良いソリューションを見つけることができます。

あなたのより良い一般化があなたが見ている問題に関連していれば、私は驚かないでしょう。基礎となるモデルが連続的な構造を持っているニューラルネットワークで成功しましたが、不連続がある場合はうまく機能しませんでした。また、ニューラルネットワークのパフォーマンスは、入力と出力の構造に密接に関係していることが多いことにも留意してください。

— ジョン・パーシバル・ハックワース
ソース