回答:
@Dikran Marsupialの答えを拡張する...
NYUのYan LeCunnのグループのアンナチョロマンスカと彼女の同僚は、2014年のAISTATS論文「The Loss Surface of Multilayer Nets」でこれについて述べています。ランダム行列理論といくつかの実験を使用して、彼らは次のように主張しています。
大規模ネットワークの場合、ほとんどのローカルミニマムは同等であり、テストセットで同様のパフォーマンスが得られます。
「悪い」(高い値の)極小値を見つける確率は、小規模のネットワークではゼロではなく、ネットワークのサイズとともに急速に減少します。
多くの優れたローカルトレーニングセットの1つとは対照的に、トレーニングセットでグローバルな最小値を見つけるのに苦労することは、実際には役に立たず、過剰適合につながる可能性があります。
[論文の2ページ目から]
この見方では、グローバルな最小値を見つけるために重いアプローチを展開する大きな理由はありません。その時間は、新しいネットワークトポロジ、機能、データセットなどを試すのに費やす方が良いでしょう。
とは言うものの、多くの人々がSGDの増強または交換について考えてきました。かなり小規模なネットワーク(現代の標準による)では、これらの改良されたメタヒューリスティックは、Mavrovouniotis and Yang(2016)がいくつかのベンチマークデータセットで(多くではないが)アントコロニー最適化+バックプロップが未修正のバックプロップを打つことを示しているようです。Rere el al。(2015)シミュレーテッドアニーリングを使用してCNNをトレーニングし、最初に検証セットでパフォーマンスが向上することを確認します。ただし、10エポック後には、パフォーマンスのわずかな差(有意性のテストが行われていない)のみが残ります。エポックあたりの収束の高速化の利点は、エポックあたりの計算時間が劇的に長くなることでも相殺されるため、シミュレーテッドアニーリングの明らかな利点ではありません。
これらのヒューリスティックがネットワークを初期化するより良い仕事をする可能性があり、一度正しい経路を指し示したら、オプティマイザーはそれを行います。Sutskever et al。(2013)Geoff Hintonのグループから、2013 ICML論文でこのようなことを論じています。
局所的最小値は、しばしば提案されるほど、ニューラルネットではそれほど大きな問題ではありません。極小値の一部は、ネットワークの対称性によるものです(つまり、隠されたニューロンを入れ替えて、関数を残すことができます)変更されていないネットワークの。必要なのは、グローバル最小値ではなく、適切なローカル最小値を見つけることです。ニューラルネットワークなどの非常に柔軟なモデルを積極的に最適化することは、データを過剰適合させるためのレシピになる可能性が高いため、たとえばシミュレーテッドアニーリングを使用してトレーニング基準のグローバル最小値を見つけると、ニューラルネットワークに悪い結果を与える可能性があります勾配降下によって訓練されたものよりも一般化のパフォーマンスが高くなり、最終的には極小値となります。これらのヒューリスティック最適化手法を使用する場合、モデルの複雑さを制限するために正則化用語を含めることをお勧めします。
...または、代わりに、たとえばカーネルメソッドまたは放射基底関数モデルを使用します。