それでは、LSTMの欠点は何ですか?


12

私はKerasパッケージの知識を拡大しており、利用可能なモデルのいくつかでツールを開発しています。NLPバイナリ分類問題があり、それを解決しようとしており、さまざまなモデルを適用しています。

いくつかの結果を処理し、LSTMの詳細を読んだ後、このアプローチは(複数のデータセットにわたって)私が試した他のどの方法よりもはるかに優れているようです。私は、「なぜ/いつLSTMを使用しないのか」と考え続けてます。LSTMに固有の追加のゲートを使用することは、勾配が消えてしまうモデルがいくつかあった後、私にとって完全に理にかなっています。

それでは、LSTMの欠点は何ですか?どこでうまくいかないのですか?「1つのサイズですべてに適合する」アルゴリズムのようなものはないことを知っているので、LSTMには欠点があるに違いありません。


GRUを試す
ビベックケタン

回答:


11

いくつかの問題に対してLSTMが非常にうまく機能することは正しいですが、欠点のいくつかは次のとおりです。

  • LSTMのトレーニングには時間がかかります
  • LSTMのトレーニングにはより多くのメモリが必要
  • LSTMはオーバーフィットしやすい
  • ドロップアウトはLSTMで実装するのがはるかに難しい
  • LSTMは、さまざまなランダムな重みの初期化に敏感です。

これらは、たとえば、1D変換ネットのような単純なモデルと比較しています。

最初の3つの項目は、LSTMのパラメーターが多いためです。


3
同意しました。おそらく、過剰適合(別名一般化)が最大のリスクだと思います。モデルの検証を行うための適切な戦略があることを確認してください。
トム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.