ディープラーニングの文献には、勾配降下で非一定の学習率を使用する巧妙なトリックがたくさんあります。指数関数的減衰、RMSprop、Adagradなどのようなものは実装が簡単で、すべてのディープラーニングパッケージで利用できますが、ニューラルネットワークの外部には存在しないようです。これには理由がありますか?人々が単に気にしないということであれば、ニューラルネットワークの外で気にしなければならない理由はありますか?
ディープラーニングの文献には、勾配降下で非一定の学習率を使用する巧妙なトリックがたくさんあります。指数関数的減衰、RMSprop、Adagradなどのようなものは実装が簡単で、すべてのディープラーニングパッケージで利用できますが、ニューラルネットワークの外部には存在しないようです。これには理由がありますか?人々が単に気にしないということであれば、ニューラルネットワークの外で気にしなければならない理由はありますか?
回答:
免責事項:ニューラルネットワーク以外の最適化の経験はあまりないので、答えは明らかに偏っていますが、いくつかの役割があります。
(ディープ)ニューラルネットワークには多くのパラメーターがあります。これにはいくつかの意味があります。
第一に、ヘッセ行列以上の導関数の計算が実行不可能になるという理由だけで、高次のメソッドを除外します。他のドメインでは、これはSGDの調整よりも有効なアプローチである可能性があります。
第二に、SGDはすばらしいですが、実際には遅い傾向があります。これらの改良されたSGDバリアントは、主に高速なトレーニングを可能にしますが、SGDの素晴らしい特性のいくつかを失う可能性があります。他のドメインでは、SGDのトレーニング時間がボトルネックにならない場合があるため、スピードアップによって得られる改善はごくわずかなものです。
トレーニング(ディープ)ニューラルネットワークは非凸最適化であり、フィールドでの顕著な凸面緩和の結果を認識していません。他の分野とは異なり、ニューラルネットワークは、証明可能なグローバルに最適なソリューションに焦点を当てていないため、最適化中の損失曲面とその横断の特性を改善するためにより多くの努力を注ぐことになります。
他の分野では、問題が凸問題として定義されると、最適化アルゴリズムを選択しても解の品質を改善できないため、凸緩和を使用してグローバルに最適な解を取得することが、最適化アルゴリズムではなく関心の中心になる場合があります。
この答えは考えられるすべての側面を網羅しているわけではなく、私自身も他の意見に興味があると思います。