勾配降下は常に最適に収束しますか？

21

勾配降下が最小に収束しないシナリオがあるかどうか疑問に思っています。

勾配降下が常にグローバルな最適値に収束することが保証されているわけではないことを認識しています。また、たとえば、ステップサイズが大きすぎると、最適値から逸脱する可能性があることも認識しています。しかし、ある最適から逸脱すると、最終的には別の最適に移行するように思えます。

したがって、勾配降下はローカルまたはグローバル最適に収束することが保証されます。そうですか？そうでない場合、大まかな反例を示してください。

— wit221
ソース

1

このリンクが将来役立つことを願ってい

— アディティア

1

参照してください。この回答を勾配降下のアニメーションを作成し、証明、画像やコードを含む3コンクリートと簡単な例のために

— オレンミルマン

27

勾配降下法は、最適なポイントを見つけるために設計されたアルゴリズムですが、これらの最適なポイントは必ずしもグローバルではありません。そして、もしそれがローカルな場所から発散することが起こるなら、それは別の最適な点に収束するかもしれませんが、その確率はそれほど大きくありません。その理由は、ステップサイズが大きすぎて1つの最適なポイントを後退させる可能性があり、振動する確率は収束よりもはるかに大きいためです。

勾配降下については、機械学習の時代と深層学習の時代という2つの主要な視点があります。機械学習の時代には、勾配降下によりローカル/グローバル最適が見つかると考えられていましたが、入力フィーチャの次元が多すぎる深層学習の時代には、すべてのフィーチャが最適値に配置される確率が実際に示されます単一のポイントで多すぎることはなく、コスト関数で最適な場所を探しているため、ほとんどの場合、サドルポイントが観察されます。これは、大量のデータを使用したトレーニングとトレーニングエポックにより、ディープラーニングモデルが他のアルゴリズムよりも優れている理由の1つです。そのため、モデルをトレーニングすると、迂回路が見つかるか、下り坂になり、点で立ち往生することはありませんが、適切なステップサイズが必要です。

より直観的に、こことここを参照することをお勧めします。

— メディア
ソース

3

まさに。これらの問題は、理論上は常に発生しますが、実際にはほとんど発生しません。ディメンションが非常に多いため、これは問題になりません。ある変数には極小値がありますが、別の変数にはありません。さらに、ミニバッチまたは確率的勾配降下は、局所的な最小値の回避にも役立ちます。

— リカルドクルス

3

@RicardoCruzはい、そうです

— メディア

12

あなたが言及した点（非グローバル最小値への収束、および非収束アルゴリズムにつながる可能性のある大きなステップサイズ）に加えて、「変曲範囲」も問題になる可能性があります。

次の「リクライニングチェア」タイプの機能を検討してください。

明らかに、勾配が0ベクトルである範囲が中央にあるように構築できます。この範囲では、アルゴリズムは無期限にスタックする可能性があります。通常、変曲点は局所的な極値とは見なされません。

— アミ・タボリー
ソース

4

$x = 0$ $f(x) = x^3$

— ハーバート・ニーリエム
ソース

3

[注5 2019年4月：論文の新しいバージョンがarXivで更新され、多くの新しい結果が得られました。MomentumとNAGのバックトラッキングバージョンも紹介し、Backtracking Gradient Descentと同じ仮定の下で収束を証明します。

ソースコードは、GitHubのリンク（https://github.com/hank-nguyen/MBT-optimizer）で入手できます。

DNNに適用するためのアルゴリズムを改善し、MMT、NAG、アダム、アダマックス、アダグラードなどの最新のアルゴリズムよりも優れたパフォーマンスを獲得しました...

私たちのアルゴリズムの最も特別な特徴は、それらが自動であるということです、あなたは一般的な習慣として学習率の手動の微調整をする必要はありません。自動微調整は、アダム、アダマックス、アダグラードなどとは性質が異なります。詳細は論文に記載されています。

]

非常に最近の結果に基づく：この論文の私の共同研究でホワイト https://arxiv.org/abs/1808.05160

任意のC ^ 1関数に適用される場合でバックトラッキングの勾配降下を示しました。 $f$ 、臨界点の数は常にいずれかの無限大に臨界点又は発散する収束します。この条件は、すべてのモールス関数などの汎用関数で満たされます。また、ある意味で、限界点が点になることは非常にまれであることも示しました。したがって、すべてのクリティカルポイントが非縮退である場合、ある意味で限界ポイントはすべて最小値です。[標準的な勾配降下の場合の既知の結果については、引用論文の参考文献も参照してください。]

上記に基づいて、現在の最先端の方法と同等であり、学習率の手動微調整を必要としない、ディープラーニングの新しい方法を提案しました。（一言で言えば、各反復で変化する学習率が安定するまで、一定時間だけバックトラッキング勾配降下を実行するという考え方です。特に重要なポイントであるこの安定化を期待しています。上記の収束結果のため、C ^ 2であり、非縮退です。その時点で、標準の勾配降下法に切り替えます。詳細については、引用された論文を参照してください。この方法は、他の最適なアルゴリズムにも適用できます）

PS標準の勾配降下法に関する元の質問については、マップの微分がグローバルにリプシッツであり、学習率が十分に小さく、標準の勾配降下法が収束することが証明されている場合に限り、私の知る限りです。[これらの条件が満たされない場合、収束結果が得られないことを示す単純な反例があります。一部の引用論文を参照してください。]上記の論文では、長期的にはバックトラッキング勾配降下法は次のようになると主張しました。標準勾配降下法。これは、標準勾配降下法が実際に通常うまく機能する理由を説明します。

— チュエン
ソース