確率的勾配降下法はどのようにして局所的最小値の問題を回避できますか


回答:


21

確率的勾配(SG)アルゴリズムは、シミュレーテッドアニーリング(SA)アルゴリズムのように動作し、SGの学習率はSAの温度に関連しています。SGによって導入されたランダム性またはノイズにより、極小値から脱出してより良い最小値に到達できます。もちろん、学習速度をどれだけ速くするかによります。ニューラルネットワーク での確率的勾配学習(pdf)のセクション4.2を参照してください。


4
2番目の定理は非凸関数の限られた場合であり、勾配0のある点に(無限のサンプルで)収束するだけであると言っているので、セクション4.1も同様にオーバールックしないでください。 。SGDは、分散学習などのより実用的な理由でより興味深いものであり、ローカルミニマムを「回避」するとは限りません。
nilの

2

確率的勾配降下では、通常の勾配降下(バッチ勾配降下)のサンプル全体とは対照的に、すべての観測に対してパラメーターが推定されます。これにより、多くのランダム性が得られます。確率的勾配降下のパスはより多くの場所をさまようため、ローカルミニマムから「飛び出して」、グローバルミニマムを見つける可能性が高くなります(注*)。ただし、確率的勾配降下は依然として局所的な最小値にとどまる可能性があります。

注:学習率を一定に保つことは一般的です。この場合、確率的勾配降下は収束しません。同じポイントをさまようだけです。ただし、学習率が時間とともに低下する場合、たとえば反復回数に反比例する場合、確率的勾配降下は収束します。


確率的勾配降下が実際に収束せず、特定の点の周りをただ不思議に思うことは真実ではありません。学習率が一定に保たれている場合に当てはまります。ただし、この方法では、アルゴリズムが凸関数の最小値に近づくと、振動が停止して収束するため、学習率はゼロになる傾向があります。確率的勾配の収束の証明の鍵は、一連の学習率に課せられる条件です。ロビンズとモンロの元の論文の式(6)と(27)を参照してください。
クララ14年

2

前の回答で既に述べたように、確率的勾配降下法は、各サンプルを繰り返し評価しているため、ノイズの多い表面を持っています。すべてのエポック(トレーニングセットを通過)でバッチ勾配降下のグローバル最小に向かって一歩を踏み出している間、確率的勾配降下勾配の個々のステップは、評価されたサンプルに応じて常にグローバル最小に向かっている必要はありません。

2次元の例を使用してこれを視覚化するために、Andrew Ngの機械学習クラスの図と図面をいくつか示します。

最初の勾配降下:

ここに画像の説明を入力してください

第二に、確率的勾配降下法:

ここに画像の説明を入力してください

下の図の赤い円は、一定の学習率を使用している場合、確率的勾配降下がグローバルミニマム周辺のどこかで「更新を続ける」ことを示しています。

したがって、確率的勾配降下法を使用している場合の実用的なヒントを次に示します。

1)各エポック(または「標準」バリアントの反復)の前にトレーニングセットをシャッフルします。

2)適応学習率を使用して、グローバルな最小値により近い「アニーリング」


各エポックの前にトレーニングセットをシャッフルしたいのはなぜですか?SGDのアルゴリズムは、トレーニングサンプルをランダムに選択します。
ヴラディスラフドブガレス

シャッフルは、基本的に、これらのトレーニングサンプルをランダムに選択する1つの方法です。私の実装では、通常、各エポックの前にトレーニングセットをforシャッフルし、シャッフルされたセットをループします

2
Hm、ウィキペディアでは、SGDアルゴリズムは「置換なし」と説明されていますが、Bottouはあなたと同じように説明しています(Bottou、レオン。「確率的勾配降下による大規模機械学習」。COMPSTAT'2010。 HD、2010。177-186。

4
@xeon は、この論文をチェックしてください。これは、交換なしのサンプリングの方が優れていると主張しています。私の理解では、置換なしは経験的に優れている傾向がありますが、理論的分析はごく最近まで利用できませんでした。
Dougal

1
@xeon Andrew NgのコースのPDFスライドを調べたところ、彼はBottouではなくWikipedia(「置換なし」バリアント)でそれを説明したようです。ここにスクリーンショット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.