LSTMのどの層にドロップアウトしますか?


11

LSTMドロップアウト付きのマルチレイヤーを使用して、すべての非表示レイヤーと出力の高密度レイヤーにドロップアウトを配置することをお勧めしますか?ヒントンの論文(Dropoutを提案)で彼はDropoutをDenseレイヤーにのみ配置しましたが、それは隠された内部レイヤーが畳み込みであったためです。

もちろん、特定のモデルをテストすることはできますが、これについてコンセンサスがあるのか​​どうか疑問に思いました。


3
興味がある場合は、このペーパーのリカレントネットワークでのドロップアウトに関するいくつかの良い議論:arxiv.org/abs/1512.05287 Gal、Yarin、およびZoubin Ghahramani。「リカレントニューラルネットワークにおけるドロップアウトの理論的に根拠のあるアプリケーション。」神経情報処理システムの進歩。2016年
redhqs 2018

2
@Mediaが以下で言ったことを確認しているようです
BigBadMe

回答:


12

LSTM特定の明確な理由により、セルにドロップアウトを追加しない方がよいと思います。LSTMs長期的には良いですが、それらについての重要なことは、彼らが複数のことを同時に記憶することはあまり上手ではないということです。ドロップアウトのロジックは、特定のニューロンに依存しないようにするためにニューロンにノイズを追加するためのものです。LSTM細胞のドロップアウトを追加することで、忘れてはならないものを忘れる可能性があります。その結果、CNNs私はいつもレイヤーの後の密なレイヤーでドロップアウトを使用することを好むようにLSTM


1
私はあなたの言っていることを理解していますし、それは理にかなっていますが、それでは、KerasまたはTensorflowでのLSTMセルの実装がドロップアウト(および繰り返しドロップアウト)を指定する機能を提供し、実際にLSTMがどのように想定されているかを損なう場合関数?
BigBadMe 2018

3
CNNs、それによる畳み込み層における重みの小さい数にCONV層にそれらを使用しない完全に許容可能です。でLSTMs一方、重みの数が小さくありません。覚えておくべきことがたくさんあるとタスクで述べたように、私はドロップアウトを使用しないようにしますが、多くの依存関係を持たない動詞の緊張のような場合、それはそれほど悪いことではないと思います。ちなみに、それは私の経験でした。異なるアプリケーションドメインには他の答えがあるかもしれません。
メディア

1
両方の回答による素晴らしい説明(+1)
Aditya

5

すべてのモデルタイプで証明できるコンセンサスはありません。

ドロップアウトを正則化の一種として考えると、どれだけ適用するか(どこに適用するか)は、本質的にデータセットのタイプとサイズ、および構築されたモデルの複雑さ(大きさ)に依存します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.