私は現在、ミニバッチ勾配降下がescent点にどのように閉じ込められるかに戸惑っています。
解決策はあまりにも取るに足りないかもしれません。
あなたはすべてのエポック新しいサンプルを取得し、コスト関数は各バッチに対してのみ静的であるので、それは、新しいバッチに基づいて新しいエラーを計算した勾配は、各ミニバッチの変更..しかしに応じなければならないことを意味し、これはすべきバニラの実装にはサドルポイントに問題がありますか?
ニューラルネットワークに共通する高度に非凸の誤差関数を最小化するもう1つの重要な課題は、多数の準最適な局所最小値にとらわれないようにすることです。ドーフィン等。[19]困難は実際には極小値ではなく点、つまり、ある次元が上に傾斜し、別の次元が下に傾斜する点から生じると主張しています。これらのaddle点は通常、同じ誤差のプラトーに囲まれ、勾配がすべての次元でゼロに近いため、SGDが逃げにくいことで有名です。
収束に向かって変動するため、特にSGDは点に対して明確な利点があることを意味します...変動とランダムサンプリング、およびエポックごとに異なるコスト関数は、1つに閉じ込められないための十分な理由になります。
完全なバッチ勾配の場合、誤差関数は一定であるため、gradient点にトラップされる可能性があります。
私は他の2つの部分について少し混乱しています。