RNN(特にLSTMユニット)がどのように機能するかについての基本的な知識があります。LSTMユニット、つまりセルと、値の流れを制御するいくつかのゲートのアーキテクチャの図式的な考えがあります。
しかし、明らかに、従来のRNNである逆伝播を使用してトレーニング中に発生する「勾配の消失と爆発」問題をLSTMがどのように解決するかを完全に理解していないようです。私は数学を完全に理解するために論文を読む機会がありませんでした。
この回答は、LSTMユニットを備えたRNNが「勾配の消失」問題をどのように解決するかについて簡単に説明しています。数学的には、その理由は、ゼロにならない、すなわち消滅しない誘導体の存在がないようです。その結果、著者は「勾配が消えないパスが少なくとも1つある」と述べています。私見、この説明は少しあいまいです。
その間、私はニューラルネットワークを使用したシーケンスからシーケンスへの学習(Ilya Sutskever、Oriol Vinyals、Quoc V. Le)の論文を読んでおり、その論文のセクション「3.4 Training details」には、
LSTMは勾配の消失の問題に悩まされることはありませんが、勾配が爆発する可能性があります。
LSTMユニットを備えたRNNは、「消失」と「爆発勾配」の両方の問題を解決すると常に考えていましたが、明らかに、LSTMユニットを備えたRNNも「爆発勾配」に苦しんでいます。
直観的に、それはなぜですか?数学的には、その理由は何ですか?