LSTMユニットを持つRNNも「勾配の爆発」に悩まされるのはなぜですか?


13

RNN(特にLSTMユニット)がどのように機能するかについての基本的な知識があります。LSTMユニット、つまりセルと、値の流れを制御するいくつかのゲートのアーキテクチャの図式的な考えがあります。

しかし、明らかに、従来のRNNである逆伝播を使用してトレーニング中に発生する「勾配の消失と爆発」問題をLSTMがどのように解決するかを完全に理解していないようです。私は数学を完全に理解するために論文を読む機会がありませんでした。

この回答は、LSTMユニットを備えたRNNが「勾配の消失」問題をどのように解決するかについて簡単に説明しています。数学的には、その理由は、ゼロにならない、すなわち消滅しない誘導体の存在がないようです。その結果、著者は「勾配が消えないパスが少なくとも1つある」と述べています。私見、この説明は少しあいまいです。

その間、私はニューラルネットワークを使用したシーケンスからシーケンスへの学習(Ilya Sutskever、Oriol Vinyals、Quoc V. Le)の論文を読んでおり、その論文のセクション「3.4 Training details」には、

LSTMは勾配の消失の問題に悩まされることはありませんが、勾配が爆発する可能性があります。

LSTMユニットを備えたRNNは、「消失」と「爆発勾配」の両方の問題を解決すると常に考えていましたが、明らかに、LSTMユニットを備えたRNNも「爆発勾配」に苦しんでいます。

直観的に、それはなぜですか?数学的には、その理由は何ですか?

回答:


12

非常に短い答え:

LSTMはセルの状態(通常で示されるc)と隠れ層/出力(通常で示されるh)を分離しc、の追加更新のみを行い、メモリをcより安定させます。したがって、通過する勾配cは維持され、消失しにくい(したがって、全体の勾配は消失しにくい)。ただし、他のパスは勾配爆発を引き起こす可能性があります。


数学的な説明を含むより詳細な回答:

最初にCEC(Constant Error Carousel)メカニズムを確認しましょう。CECは、時間ステップから、言うtt+1ゲートが1(なしので、これは常にそうである、元LSTM紙にゲートが忘れています)、勾配で忘れてしまった場合、変更せずに流れることができます。紙にBPTT式に以下LSTM:Aサーチスペースオデッセイ付録A.2(紙であり、他の文献に)、CECフローは、実際に式に相当するδ C T = + δ C T + 1F T + 1。ときfdl/dctyhδct=+δct+1ft+1、1に近いあるδ C T + 1が蓄積にδ C T可逆。ft+1δct+1δct

ただし、LSTMはCEC以上のものです。からへのCECパスとは別に、2つの隣接するタイムステップ間に他のパスが存在します。たとえば、です。バックプロパゲーションプロセスを2ステップにわたって歩くと、次のようになります。、このパスでがバニラRNNのように2回乗算され、勾配爆発を引き起こす可能性があることがます。同様に、入力および忘却ゲートを通るパスも、行列自己乗算により勾配爆発を引き起こす可能性があります。ctct+1ytot+1yt+1δytRoTδot+1δyt+1RoTδot+2RoTRiT,RfT,RzT

参照:

K. Greff、RK Srivastava、J。Koutnıık、BR Steunebrink、およびJ.Schmidhuber。LSTM:サーチスペースオデッセイ。CoRR、abs / 1503.04069、2015年。


その論文の完全な引用を含めることができますか?リンクが機能しなくなる傾向があります。
mkt-モニカの復活

2
@mktアドバイスをありがとう。実際、これは非常に有名な論文であり、リンクはarXivに送られるため、死ぬことはないでしょう(笑)。
soloice

とにかく追加してくれてありがとう、そして付録についての詳細。
mkt-モニカの復活

いい答えです。私は通常、+ 1を入れるためにコメントしませんが、これには値します。LSTMセルの不安定なパスの可能性のある行列代数を使用して実際の例を表示すると、OPに正確に答えます。
DeltaIV

3

0.992000.134
1200=1
1.0120013

ただし、勾配が不安定になる可能性のあるパスはまだあり、ネットが大きいほど、この問題に遭遇する可能性が高くなります。


3
なぜこれが私の質問に答えるのですか?詳細を知りたい。
nbro
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.