常にADAM最適化手法を使用しないのはなぜですか？

13

そうですアダプティブモーメントの推定（アダム）（より速く、より確実に世界最小の到達）オプティマイザは、ほとんど常に良い作品ニューラルネットを訓練してコスト関数を最小化するとき。

いつもAdamを使わないのはなぜですか？なぜRMSPropやモメンタムオプティマイザーを使用する必要があるのですか

neural-network optimization

— PyRsquared
ソース

1

どちらの声明を支持するための厳密で正式な方法があるとは思わない。エラーサーフェスは不明であるため、すべて純粋に経験的です。経験則として、および純粋Mの経験から他の人が失敗する場合、ADAMは良くない（例えば分割）、ではないが欠点がない（収束が単調ではない）

— アレックス

2

Adamはより速く収束します。SGDは遅くなりますが、より一般化されます。そのため、最終的にはすべて特定の状況に依存します。

— -agcala

14

これは、SGDがADAMよりも優れた汎用アダプターであると主張する記事をレビューするブログ投稿です。https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

すべてのメソッドには弱点があるため、多くの場合、複数のメソッド（アンサンブル）を使用する価値があります。

— クリストファー・クラウス
ソース

4

さまざまな勾配降下オプティマイザーを比較するこの投稿もご覧ください。以下に示すように、Adamは明らかに収束するタスクがあるため、一部のタスクに最適なオプティマイザーではないことは明らかです。

— Mセフ
ソース

記録のために：リンクされた記事で、彼らはADAMの欠陥のいくつかに言及し、ソリューションとしてAMSGradを提示します。しかし、AMSGradが実践においてADAMを上回るかどうかは（執筆時点では）決定的ではないと結論付けています。

— ルー