勾配降下法と確率勾配降下法の歴史を理解しようとしています。グラディエントディセントは1847年にコーシーで発明されました。システムエクイテーションシステムの同時解法により作成されました。pp。536–538詳細については、こちらを参照してください。
それ以来、勾配降下法は開発を続け、私はそれらの歴史に精通していません。特に、確率的勾配降下法の発明に興味があります。
学術論文で歓迎される以上に使用できるリファレンス。
勾配降下法と確率勾配降下法の歴史を理解しようとしています。グラディエントディセントは1847年にコーシーで発明されました。システムエクイテーションシステムの同時解法により作成されました。pp。536–538詳細については、こちらを参照してください。
それ以来、勾配降下法は開発を続け、私はそれらの歴史に精通していません。特に、確率的勾配降下法の発明に興味があります。
学術論文で歓迎される以上に使用できるリファレンス。
回答:
確率的勾配降下法の前には、ロビンスとモンロの論文「確率的近似法」で最初に説明されているように、確率的近似があります。キーファーとウォルフォウィッツはその後、論文「回帰関数の最大値の確率的推定」を発表しました。これは、コメントでマークストーンが指摘したように、確率的近似のMLバリアント(つまり、確率的勾配降下)に精通している人々にとってより認識しやすいものです。60年代には、その流れに沿って多くの研究が行われました。Dvoretzky、Powell、Blumはすべて、今日当たり前と思われる結果を公開しました。Robbins and MonroメソッドからKiefer Wolfowitzメソッドに移行するのは比較的小さな飛躍であり、単に問題を再構成してから確率的勾配降下(回帰問題の場合)に到達するだけです。上記の論文は、Nocedal、Bottou、およびCurtisによるこのレビュー論文で言及されているように、確率的勾配降下法の前例として広く引用されており、機械学習の観点から簡単な歴史的展望を提供します。
KushnerとYinの本Stochastic Approximation and Recursive Algorithms and Applicationsは、40年代までさかのぼってこの概念が制御理論で使用されていたことを示唆していると思いますが、引用があったかどうかは思い出せません逸話でもありませんし、これを確認するために彼らの本にアクセスすることもできません。
ハーバートロビンスとサットンモンロ確率的近似法 The Annals of Mathematical Statistics、Vol。22、No。3(1951年9月)、pp。400-407。
J. KieferおよびJ. Wolfowitz 回帰関数の最大値の確率的推定 Ann。数学。統計学者。23巻、番号3(1952年)、462-466
Leon BottouおよびFrank E. CurtisおよびJorgeの大規模機械学習のための Nocedal 最適化手法、テクニカルレポート、arXiv:1606.04838
見る
Rosenblatt F.パーセプトロン:脳内の情報の保存と組織化のための確率モデル。心理的レビュー。1958年11月; 65(6):386。
SGDが最適化の文献でこれより前に発明されたかどうかはわかりませんが、おそらくそうでしたが、ここではパーセプトロンをトレーニングするためのSGDの適用について説明していると思います。
システムが正の強化状態にある場合、「オン」応答のソースセットのすべてのアクティブなAユニットの値に正のAVが追加され、ソースのアクティブユニットに負のAVが追加されます。 -「オフ」応答のセット。
彼はこれらを「2種類の強化」と呼んでいます。
彼はまた、これらの「二価システム」についての本を参照しています。
Rosenblatt F.パーセプトロン:認知システムにおける統計的分離可能性の理論(Project Para)。コーネル航空研究所; 1958年。