完全に接続された(少なくとも2つ以上の隠れ層がある層から層へ)バックプロップネットワークは、普遍的な学習者です。残念ながら、彼らはしばしば学習が遅く、過度に適合したり、扱いにくい一般化を持つ傾向があります。
これらのネットワークにだまされてから、エッジの一部を枝刈りすることで(重みがゼロで変更できないように)、ネットワークの学習が速くなり、一般化が促進される傾向があることを確認しました。これには理由がありますか?それは、ウェイト検索スペースの次元の減少のためだけですか、それとももっと微妙な理由がありますか?
また、より良い一般化は、私が見ている「自然な」問題の成果物ですか?