確率的勾配降下法を発明したのは誰ですか?


36

勾配降下法確率勾配降下法の歴史を理解しようとしています。グラディエントディセントは1847年にコーシーで発明されました。システムエクイテーションシステムの同時解法により作成されました。pp。536–538詳細については、こちらを参照してください

それ以来、勾配降下法は開発を続け、私はそれらの歴史に精通していません。特に、確率的勾配降下法の発明に興味があります。

学術論文で歓迎される以上に使用できるリファレンス。


3
機械学習の前にSGDについて学んだので、この全体の前にあったに違いない
-Aksakal

2
まあ、コーシーは機械学習の前にGDを発明したので、SGCも以前に発明されたのは驚くことではありません。
-DaL

3
Kiefer-Wolfowitz Stochastic Approximation en.wikipedia.org/wiki/Stochastic_approximationは、勾配を直接「シミュレート」する以外の方法のほとんどです。
マークL.ストーン

3
MLの「確率的勾配降下法」は、凸最適化の「確率的勾配法」と同じです。モスクワのソ連で1960年から1970年にかけて、勾配法が発見されました。たぶんアメリカでも。ボリスポリアック(彼はヘビーボールメソッドの著者)が彼(およびすべての人々)が1970年にサブグラジエントメソッドについて考え始めると言ったビデオを見ました(youtube.com/watch?v=2PcidcPxvyk&t=1963s)....
ブルズィー

回答:


27

確率的勾配降下法の前には、ロビンスとモンロの論文「確率的近似法」で最初に説明されているように、確率的近似があります。キーファーとウォルフォウィッツはその後、論文「回帰関数の最大値の確率的推定」を発表しました。これは、コメントでマークストーンが指摘したように、確率的近似のMLバリアント(つまり、確率的勾配降下)に精通している人々にとってより認識しやすいものです。60年代には、その流れに沿って多くの研究が行われました。Dvoretzky、Powell、Blumはすべて、今日当たり前と思われる結果を公開しました。Robbins and MonroメソッドからKiefer Wolfowitzメソッドに移行するのは比較的小さな飛躍であり、単に問題を再構成してから確率的勾配降下(回帰問題の場合)に到達するだけです。上記の論文は、Nocedal、Bottou、およびCurtisによるこのレビュー論文で言及されているように、確率的勾配降下法の前例として広く引用されており、機械学習の観点から簡単な歴史的展望を提供します。

KushnerとYinの本Stochastic Approximation and Recursive Algorithms and Applicationsは、40年代までさかのぼってこの概念が制御理論で使用されていたことを示唆していると思いますが、引用があったかどうかは思い出せません逸話でもありませんし、これを確認するために彼らの本にアクセスすることもできません。

ハーバートロビンスとサットンモンロ確率的近似法 The Annals of Mathematical Statistics、Vol。22、No。3(1951年9月)、pp。400-407。

J. KieferおよびJ. Wolfowitz 回帰関数の最大値の確率的推定 Ann。数学。統計学者。23巻、番号3(1952年)、462-466

Leon BottouおよびFrank E. CurtisおよびJorgeの大規模機械学習のための Nocedal 最適化手法、テクニカルレポート、arXiv:1606.04838


正確な参考文献を教えていただけますか?また、SGDの発明については、40年代にあるように見えますが、誰がどこでどこにいるかは明らかではありませんか?
-DaL

確かに、確率的近似アルゴリズムを使用した1951年のロビンスとモンロは広く信じられています。似たようなものが40年代の制御理論の文献に現れたと聞いたことがあります(私が言ったように、私はクシュナーと陰から思いますが、私はその本を手元に持っていません)ノセダール等を含むモンロ。私がリンクした参照。
デビッドコザック

したがって、私たちの主要な候補者は、H。ロビンスとS.モンロです。確率的近似法。数理統計学、22(3)の年報:400~407、1951年、にNocedal、Bottou、およびカーティスに書き込まれるようpdfs.semanticscholar.org/34dd/...
ダル

私はそれがSGDの起源と呼ばれていますが、要約(実際には今日の用語では抽象的)には、「M(x)はxの単調関数であると想定されていますが、実験者にはわかりません」と書かれていますthc方程式M(x)= aの解x = 0を見つけるために必要です。ここで、aは与えられた定数です。M(x)が不明な場合、導出することはできません。別の古代の先祖でしょうか?
DaL

ある意味で同意しました。Kiefer Wolfowitzはこの分析を使用して、今日の形式でより認識しやすい論文を作成しました。上でマーク・ストーンが述べたように。彼らの論文は、ここで見つけることができます: projecteuclid.org/download/pdf_1/euclid.aoms/1177729392を
デビッドコザック

14

見る

Rosenblatt F.パーセプトロン:脳内の情報の保存と組織化のための確率モデル。心理的レビュー。1958年11月; 65(6):386。

SGDが最適化の文献でこれより前に発明されたかどうかはわかりませんが、おそらくそうでしたが、ここではパーセプトロンをトレーニングするためのSGDの適用について説明していると思います。

システムが正の強化状態にある場合、「オン」応答のソースセットのすべてのアクティブなAユニットの値に正のAVが追加され、ソースのアクティブユニットに負のAVが追加されます。 -「オフ」応答のセット。

彼はこれらを「2種類の強化」と呼んでいます。

彼はまた、これらの「二価システム」についての本を参照しています。

Rosenblatt F.パーセプトロン:認知システムにおける統計的分離可能性の理論(Project Para)。コーネル航空研究所; 1958年。


1
一歩前進、ありがとう!オンラインで最初のリファレンスをここで見つけるciteseerx.ist.psu.edu/viewdoc / ...それを見ていきます。ただし、アルゴリズムがより明示的かつ形式的になることを期待しています。
DaL

3
最適化に関する発言については+1。Machine Learningで最適化を行うために使用されているため、最適化がMLの40〜50年前に大きな問題になったので(そしてコンピューターもほぼ同時に登場しました)、それは良いリードのようです。
ウェイン

この引用がSGDを説明しているとあなたが言う理由がわかりません。
アメーバは、モニカを復活させる

@amoeba間違いなく私は間違いを犯さず、ただ論文をざっと読んだだけでしたが、パーセプトロンの更新について説明していましたが、これは学習率が一定の単なるSGDです。
user0

3
そのとおり。私はあなたが選んだ引用文から確率論的な側面が明らかではないと言っているだけです。つまり、「確率的」GDとは、(利用可能なすべてのトレーニングサンプルを使用して勾配を計算する代わりに)一度に1つのトレーニングサンプルが更新されることを意味します。en.wikipedia.org/wiki/Perceptron#Stepsで指定されているアルゴリズムにより、この「確率的」側面がステップ#2ですぐに明確になります。
アメーバは、モニカの復活を
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.