常にADAM最適化手法を使用しないのはなぜですか?


13

そうですアダプティブモーメントの推定(アダム)(より速く、より確実に世界最小の到達)オプティマイザは、ほとんど常に良い作品ニューラルネットを訓練してコスト関数を最小化するとき。

いつもAdamを使わないのはなぜですか?なぜRMSPropやモメンタムオプティマイザーを使用する必要があるのですか


1
どちらの声明を支持するための厳密で正式な方法があるとは思わない。エラーサーフェスは不明であるため、すべて純粋に経験的です。経験則として、および純粋Mの経験から他の人が失敗する場合、ADAMは良くない(例えば分割)、ではないが欠点がない(収束が単調ではない)
アレックス

2
Adamはより速く収束します。SGDは遅くなりますが、より一般化されます。そのため、最終的にはすべて特定の状況に依存します。
-agcala

回答:



4

さまざまな勾配降下オプティマイザーを比較するこの投稿もご覧ください。以下に示すように、Adamは明らかに収束するタスクがあるため、一部のタスクに最適なオプティマイザーではないことは明らかです。


記録のために:リンクされた記事で、彼らはADAMの欠陥のいくつかに言及し、ソリューションとしてAMSGradを提示します。しかし、AMSGradが実践においてADAMを上回るかどうかは(執筆時点では)決定的ではないと結論付けています。
ルー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.