LSTMに最適な最適化方法は何ですか？

20

theanoを使用してLSTMを実験してきましたが、どの最適化方法（SGD、Adagrad、Adadelta、RMSprop、Adamなど）がLSTMに最適か疑問に思っていましたか？このトピックに関する研究論文はありますか？

また、答えは、私がLSTMを使用しているアプリケーションのタイプに依存しますか？もしそうなら、私はテキスト分類のためにLSTMを使用しています（テキストは最初に単語ベクトルに変換されます）。

最後に、RNNの回答は同じですか、それとも異なりますか？研究論文へのポインタ、または個人的な洞察は大歓迎です！

LSTMは非常に強力であると思われるため、LSTMの最適な使用方法について詳しく知りたいと思っています。

machine-learning neural-networks optimization lstm

— アップルサイダー
ソース

7

皮肉なことに、LSTMの最適なオプティマイザー自体はLSTMです。https：//arxiv.org/abs/1606.04474 勾配降下法による勾配降下法の学習。

基本的な考え方は、ニューラルネットワーク（特にここではLSTMネットワーク）を使用して、元のネットワークの勾配を共同学習し、教えることです。メタ学習と呼ばれます。

この方法は、2000年にJuergen Schmidhuberによって提案されましたが、RNNトレーニングで他のオプティマイザーよりも優れていることが最近示されました。（素敵なグラフィックについては元の論文を参照してください）

— アノナ112
ソース

リンクの内容を教えて拡張できますか？

— mdewey

あなたの喜びのために修正されました。最初の質問は「LSTMに最適な最適化方法は何ですか？」「LSTMの最適な最適化方法はどのように機能するのか」ではなく、そのままにしておきます。

— Anona112

4

一般に、どのシナリオでどの最適化方法を使用するかについての明確な証拠はありません。さまざまなシナリオでこれらのメソッドの動作にいくつかの分析が行われていますが、決定的なものはありません。あなたがこのようなものに飛び込みたいなら、私はお勧めします：http： //papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimize.pdf

少なくともある程度の答えを提供するために、最適化ルーチンの構成は実際のルーチン自体よりも重要であることが多いと主張します。

さらに、使用されているテクニックを確認するために論文を調べることをお勧めします。例のAlex Gravesは、シーケンスの生成に関するほとんどの出版物でRMSpropを使用しています。

— シェード
ソース