theanoを使用してLSTMを実験してきましたが、どの最適化方法(SGD、Adagrad、Adadelta、RMSprop、Adamなど)がLSTMに最適か疑問に思っていましたか?このトピックに関する研究論文はありますか?
また、答えは、私がLSTMを使用しているアプリケーションのタイプに依存しますか?もしそうなら、私はテキスト分類のためにLSTMを使用しています(テキストは最初に単語ベクトルに変換されます)。
最後に、RNNの回答は同じですか、それとも異なりますか?研究論文へのポインタ、または個人的な洞察は大歓迎です!
LSTMは非常に強力であると思われるため、LSTMの最適な使用方法について詳しく知りたいと思っています。