「ほぼすべての局所的最小値は、グローバルな最適値と非常に類似した関数値を持っています」を理解する


46

、最近のブログ記事:栄GEが、それはと言われていました

ディープネットの学習を含む多くの問題では、ほとんどすべてのローカルミニマムはグローバル最適と非常に類似した関数値を持っているため、ローカルミニマムを見つけるだけで十分であると考えられています。

この信念はどこから来たのですか?


15
これが経験的な発見ではない場合、私は驚くでしょう。
usεr11852は回復モニック言う

回答:


69

最近の論文「多層ネットワークの損失面」は、これについていくつかの可能な説明を提供しています。アブストラクトから(太字は私のものです):

「シミュレーテッドアニーリングとSGDの両方が低臨界点の帯域に収束し、すべての臨界点がテストエラーで測定された高品質の局所的最小値であると推測します。これにより、大規模ネットワークと小規模ネットワーク後者の質の悪い極小値のために回収された非ゼロの確率を持っている。 最後に、我々はグローバル最小を回復すると、ネットワークの規模が大きくなるにつれて難しくなることを証明し、それが実際にはオーバーフィッティングのグローバル最小しばしばリードとして無関係であること。」

ディープラーニングで影響力のある多くの人々(Yann LeCunnとYoshua Bengioをいくつか挙げます)と数学的な角度からより多くの研究者(Rong Geと他のSanjeev Aroraのコラボレーター)がこれらのアイデアを議論し、調査しています。

上記の参考文献では、図3を参照してください。図3には、ネットの隠れユニットが多いため、極小値のバンディング/集中現象が示されています。バンディング/濃度は、損失値がほぼ類似しているため、より深いモデルまたはより大きなモデルの場合、局所最小値は「十分」であるといういくつかの経験的証拠を表しています。そして最も重要なことは、モデルがより複雑になるにつれて(この場合はより広く、しかし実際にはより深く)全体的な最小値に近い損失を持っていることです。

さらに、彼らはスピングラスモデルを使用しますが、それは単なるモデルであり、必ずしも真の姿を示すものではなく、ローカルミニマムからグローバルミニマイザーに到達するには指数関数的に時間がかかることを示します。

「さらに低位の最小値を見つけるには、addle点を通過する必要があります。したがって、少なくとも同量の点があるレベルまで上がらなければならない可能性があります。このプロセスには指数関数的に長い時間がかかるため、実際にはグローバルミニマムを見つけることは現実的ではありません。」

Rong Geの研究は、addle点の突破を中心としています。ヨシュアベンジオと彼の協力者は、かなり大胆なサドルポイント仮説を提示しました。

ここでは、統計物理学、ランダム行列理論、ニューラルネットワーク理論、および経験的証拠の結果に基づいて、特に実用的な関心の高い高次元の問題では、より深くより深刻な困難が局所最小ではなく点の拡散に起因すると主張します。このようなサドルポイントは、学習を劇的に遅くする可能性のある高エラープラトーに囲まれ、ローカルミニマムの存在の幻想的な印象を与えます。

ここのソース:高次元の非凸最適化における点問題の特定と攻撃。

ある程度まで、上記の2つのアプローチはまったく同じではありません(サドルポイント仮説では、実際に局所的な極小とは何か、非常に長い台地領域を備えた条件の悪いサドルポイントとは何かを疑問視するかもしれません)。サドルポイント仮説の背後にある考え方は、サドルポイントを突破するための最適化手法を設計することが可能であることです。例えば、ベンジオの記事のサドルフリーニュートンは、潜在的に収束を加速し、場合によってはグローバル最適に到達することさえあります。最初のMultilayer Loss Surfaceの記事は、グローバルな最適化に実際に関心があるわけではなく、実際には、オーバーフィット特性が不十分であると考えています。興味深いことに、どちらの記事も統計物理学とスピングラスモデルのアイデアを使用しています。

しかし、これらは両方の記事がグローバルな最小化に到達するために、サドルポイントの最適化の課題を克服する必要があると信じているという点で、ある程度関連しています。最初の記事では、ローカルミニマムで十分だと考えています。

いくつかの2次の曲率特性を推定できる運動量法やその他の新しい最適化アルゴリズムがaddle点から逃れることができるかどうか疑問に思うでしょう。アレックラドフォードによる有名なアニメーションはこちら

「この信念はどこから来たのか」という質問に答えるために、個人的には、異なるランダムシードを使用して異なる重みを学習することが可能であるが、対応するネットは同様の定量的パフォーマンスを持っているという事実から来ると思います。たとえば、Glorotウェイトの初期化に2つの異なるランダムシードを設定すると、おそらく異なるウェイトが学習されますが、同様の最適化方法を使用してトレーニングすると、ネットは同様のパフォーマンスを発揮します。よくある民間伝承の信念の1つは、最適化のランドスケープが卵のカートンのランドスケープに似ているということです。これに関する別の優れたブログ投稿は次のとおりです。卵とカートンの例えで。

編集:卵のカートンの類推が真実ではないことを明確にしたかっただけです。ただし、SGDは、おそらくサドルポイントの存在により、SGD + Momentumまたはより最新の最適化アルゴリズムと同様に機能しないことが知られています。


14
+1印象的で有益かつ信頼できる回答-簡単に理解できるいくつかの段落で、重要なサブフィールド内のアイデアと現在の方向性を捉えているようです。
whuber

ご回答ありがとうございます。Yann LeCunに言及したので、これらのアイデアまたは類似のアイデアを議論する彼による特定の参照を指摘できますか?
ジョンドン

2
ヘイジョン:投稿で参照したマルチレイヤーネットの損失面の記事は、Yannが共著しています。Yannが共同執筆した別の同様の記事は、高次元の風景に関する調査です。2つの記事は非常によく似ており、最初に参照した記事の方が人気があるようです。
AI

「ローカルミニマムなし」リンクは無効です。簡単なグーグル検索で、それが参照しているブログ投稿を見つけることができませんでした。ブログの投稿はオフラインですか?または単純に移動しましたか?
LMB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.