Adam Optimizerがそのハイパーパラメーターの値に対して堅牢であると考えられる理由は何ですか？

私はディープラーニング用のAdamオプティマイザーについて読んでいて、Bengio、Goodfellow、Courvilleの新しい本Deep Learningで次の文章を見つけました。

Adamは通常、ハイパーパラメーターの選択に対してかなり堅牢であると見なされていますが、学習率を推奨されるデフォルトから変更する必要がある場合があります。

ディープラーニングシステムの統計的パフォーマンスにおいて（少なくとも私の経験では）ハイパーパラメーター検索が非常に重要になる可能性があるため、これが事実であれば大したことです。したがって、私の質問は、なぜそのような重要なパラメーターに対してアダムがロバストなのですか？特別および？ $\beta_1$ $\beta_2$

私はAdamの論文を読みましたが、なぜそれらのパラメーターで機能するのか、なぜ堅牢なのかについては説明していません。彼らは他の場所でそれを正当化しますか？

私は紙を読んでも、ために、彼らは非常に小さくしようとしたハイパーパラメータの数、ということらしいわずか2とするために、それが唯一の2x3のハイパーパラメータで動作している場合にのみ3.どのようにこれは徹底的に実証研究することができ？ $\beta_1$ $\beta_2$

— チャーリー・パーカー
ソース

申し立てを行った本の著者にメールを送信します。クレームの根拠を尋ねます。

— マークL.ストーン

@ MarkL.Stoneは、アブストラクトが言ったので、彼が言っただけだと言った。ほとんど説得力のある議論。次回は、実際の論文の著者にメールを送るかもしれません。

— チャーリーパーカー

そして、自己宣伝が事実になります。

— マークL.ストーン

@ MarkL.Stoneは彼の弁護において、彼はきちんと答えるために忙しかったかもしれず、私は3人の著者のうちの1人だけに連絡しました。他の人に連絡することもできたかもしれませんが、教授が与えられた（少なくとも）1人が答えるかどうかはわかりません。DLの誇大広告で、彼は毎日300通の電子メールを受け取っているに違いない。

— チャーリーパーカー

本が出版された今、アダムの著者は、彼らのアルゴリズムがどれほど素晴らしいかを確認しています。89年のベイエリア地震を思い出します。ニュースラジオ局は、高速道路の崩壊による死亡者数の未確認報告を行った-彼らは知事の事務所から確認を求めていると述べた。その後、彼らは知事に電話をかけ、死亡者数を確認できるかどうか尋ねました。彼はそれが彼が聞いたことだと言った。その後、ラジオ局は、彼らが知事から確認を得たと報告した。それは知事が彼がそのラジオ局で判明したように、それを聞いたことを意味したことが判明した。だから、循環確認。

— マークL.ストーン

回答:

クレームに関する証拠に関しては、クレームを裏付ける唯一の証拠が彼らの論文の図4にあると思います。彼らは、異なる値の範囲の下で最終的な結果を示す、及び。 $\beta_1$ $\beta_2$ $\alpha$

個人的には、特に彼らがさまざまな問題に結果を提示していないため、私は彼らの議論を納得させません。ことで、私はさまざまな問題のために使用されるADAMを持っていることに注意します、そして私の個人的な所見は、デフォルト値のことであるおよびないといじるの良い取引が、意外にも信頼性の高いように見える必要とされます。 $\beta_1$ $\beta_2$ $\alpha$

— クリフAB
ソース

$\beta_1$ $\beta_2$

これは、ストックバニラの確率的勾配降下法とは非常に対照的です。

学習率はパラメーターごとではありませんが、単一のグローバルな学習率があり、これはすべてのパラメーターにわたって鈍的に適用されます
- （ちなみに、これは、理想的なパラメーターごとの重みを同様に保つために、データがネットに送信される前に白く、正規化されることが多い理由の1つです）
提供される学習率は使用される正確な学習率であり、時間の経過とともに適応することはありません

アダムは、適応学習率を備えた唯一のオプティマイザーではありません。Adamの論文自体が述べているように、それはAdagradとRmspropに非常に関連しており、これらはハイパーパラメーターにも非常に鈍感です。特に、Rmspropは非常にうまく機能します。

しかし、アダムは一般的に最高です。ごくわずかな例外を除き、Adamはあなたが望むことをします:)

Adamが動作しないかなり病理学的なケースがいくつかあります。特に、非常に非定常的な分布の場合です。これらの場合、Rmspropは優れたスタンバイオプションです。しかし、一般的に言えば、ほとんどの非病理学的なケースでは、アダムは非常にうまく機能します。

— ヒュー・パーキンス
ソース

β_{1}, β_{2}

$\beta_1,\beta_2$

はい、もしあなたが「なぜもっと深く研究する機会がありますか？」

— ヒューパーキンス

これは「より深い質問」ではありません。これは、論文の最も重要なポイントの1つであると思われますか？全体のポイントは、「自分自身」で処理することですが、魔法のように堅牢であると思われるこれらの他のハイパーパラメーターがあります。それが問題です。アダムの要点を誤解しない限り、それは論文の核心に関連しているように思えます。

— チャーリーパーカー

「特に非常に非定常的な分布の場合、Adamが機能しないかなり病理的なケースがいくつかあります。」<-ここに参照がありますか？

— mimoralea

ADAMの式を見ると、非常に多数のバッチ反復（〜400kなど）の後、元のエラーベースの勾配の大きさ自体が果たす役割は、実際の役割を果たさないように思われます。関連する記号の学習率構成パラメーター。
おそらく、ADAMは最初の反復/エポック中に単純なSGDよりも体重適応をよりよく制御しますが、今後は更新がやや素朴なものに減少するようです（？）

— ダニー・ローゼン
ソース

実際には、誤差ベースの勾配の大きさ自体は、最初から実際の役割を果たしていないようです。質問は、なぜそのような正規化がうまく機能しているのか、そしてそれはDLおよび他の一般的な学習モデルを導くGD直観に関して何を暗示しているのか？

— ダニーローゼン