そうですアダプティブモーメントの推定(アダム)(より速く、より確実に世界最小の到達)オプティマイザは、ほとんど常に良い作品ニューラルネットを訓練してコスト関数を最小化するとき。
いつもAdamを使わないのはなぜですか?なぜRMSPropやモメンタムオプティマイザーを使用する必要があるのですか
1
どちらの声明を支持するための厳密で正式な方法があるとは思わない。エラーサーフェスは不明であるため、すべて純粋に経験的です。経験則として、および純粋Mの経験から他の人が失敗する場合、ADAMは良くない(例えば分割)、ではないが欠点がない(収束が単調ではない)
—
アレックス
Adamはより速く収束します。SGDは遅くなりますが、より一般化されます。そのため、最終的にはすべて特定の状況に依存します。
—
-agcala