回答:
「最適化ランドスケープ」について考えてみてください。たとえば、重みが2つしかないネットワークがある場合、これらの2つの重みのすべての組み合わせを表面にプロットできます。各点の高さは、(x、yを使用した場合にコスト関数が返すエラーの量を表します。 )2つの重みとして調整します。この表面の最も低い点に移動して、最も低いレベルのエラーを取得しようとしています。
問題は、特に2つではなく数百万のパラメーターを持つネットワークでは、表面がかなりおかしくなることです。進行が遅くなるサドルポイントで止まり、急にスリングショットが下り坂に戻る可能性があります。
これを視覚化するのに役立つアニメーションを次に示し
ます。ご覧のとおり、より基本的な勾配降下アルゴリズムは、これらの位置でスタックするのがはるかに簡単です。
これには他の原因も考えられますが、これはあなたが最もよく耳にするものです。ネットワークが飽和状態のアクティベーションを取得する一連のユニット(またはreluの場合、非常に少数のトレーニング入力によってのみアクティブ化されているユニット)があり、1つのユニットが飽和状態から抜ける可能性があります。残りの部分を飽和状態から外す連鎖反応を開始し、重みが突然勾配流を後押ししますか?私はそのようなことは何も調べていませんが、他に追加する理由がある場合は興味があります。