ニューラルネットワーク以外のものに対して、適切な勾配に非一定の学習率を使用しないのはなぜですか?


14

ディープラーニングの文献には、勾配降下で非一定の学習率を使用する巧妙なトリックがたくさんあります。指数関数的減衰、RMSprop、Adagradなどのようなものは実装が簡単で、すべてのディープラーニングパッケージで利用できますが、ニューラルネットワークの外部には存在しないようです。これには理由がありますか?人々が単に気にしないということであれば、ニューラルネットワークの外で気にしなければならない理由はありますか?


2
ラインサーチまたは信頼領域法は「一定ではない」学習率だと思います。
ハイタオデュマー

2
NNから独立して開発された非一定勾配法がたくさんあります。Barzilai-Borwein GDとNesterov GDは、2つの顕著な例です。
Sycoraxが復活モニカ言う

@Sycoraxですが、実際にはNN以外で毎日使用されていますか?
ティム

2
@ティムは言えない。NNの外部でローカル検索を行う必要がある場合、2次の方法を使用する余裕があります。しかし、バックポケットにかわいいトリックがあるかもしれない機会のために、より高速なGDメソッドについて学ぶことに興奮しました。
Sycoraxが復活モニカ言う

1
(驚いたことに)GBMが一定の学習率を使用していないというケースに出くわしました。特定の例は、LightGBMでのDARTの実装です。元の論文ではますます小さいLRを使用していませんが、実際の実装ではデフォルトで使用しています。
usεr11852は回復モニック言う

回答:


16

免責事項:ニューラルネットワーク以外の最適化の経験はあまりないので、答えは明らかに偏っていますが、いくつかの役割があります。

  • (ディープ)ニューラルネットワークには多くのパラメーターあります。これにはいくつかの意味があります。

    第一に、ヘッセ行列以上の導関数の計算が実行不可能になるという理由だけで、高次のメソッドを除外します。他のドメインでは、これはSGDの調整よりも有効なアプローチである可能性があります。

    第二に、SGDはすばらしいですが、実際には遅い傾向があります。これらの改良されたSGDバリアントは、主に高速なトレーニングを可能にしますが、SGDの素晴らしい特性のいくつかを失う可能性があります。他のドメインでは、SGDのトレーニング時間がボトルネックにならない場合があるため、スピードアップによって得られる改善はごくわずかなものです。

  • トレーニング(ディープ)ニューラルネットワークは非凸最適化であり、フィールドでの顕著な凸面緩和の結果を認識していません。他の分野とは異なり、ニューラルネットワークは、証明可能なグローバルに最適なソリューションに焦点を当てていないため、最適化中の損失曲面とその横断の特性を改善するためにより多くの努力を注ぐことになります。

    他の分野では、問題が凸問題として定義されると、最適化アルゴリズムを選択しても解の品質を改善できないため、凸緩和を使用してグローバルに最適な解を取得することが、最適化アルゴリズムではなく関心の中心になる場合があります。

この答えは考えられるすべての側面を網羅しているわけではなく、私自身も他の意見に興味があると思います。


あなたは基本的に他の問題ははるかに簡単だと言っているので、トリックを必要とせず、バニラSGDで十分です。
ティム

3
それは私のメッセージを単純化しすぎています。1)一部の問題では高次の方法を使用できますが、適応型SGDは不要です。2)アムダールの法則により、SGDの改善の恩恵を受けられない問題もあります。3)いくつかの問題は凸面の解決策を提供する可能性があり、主な困難はそれらを凸面とみなすことです。これらのいずれも、他の問題がディープラーニングよりもはるかに単純であるということではなく、SGDの改善が彼らの注意の中心にない理由を説明しています。
ヤンKukacka

考えられるポイント4:他の方法を採用し、高度な勾配降下法の恩恵を受けるために十分に複雑(高次元、非線形、非凸)にした場合、おそらくニューラルネットワークと呼ばれます。
ナサニエル

1
@JanKukacka私が知っている、あなたの答えが間接的だったので、私は明確化を探していました
ティム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.