消失勾配は、1次元の場合に最もよく説明されます。多次元はより複雑ですが、本質的に類似しています。この優れた論文[1]で確認できます。
タイムステップtに隠れ状態があると仮定します。物事を単純化し、バイアスと入力を削除すると、
h t = σ (w h t − 1)になります。
その後、あなたはそれを示すことができますhtt
ht=σ(wht−1).
でマークされた因数分解!重要なものです。重みが1に等しくない場合、次のように指数関数的に高速でゼロに減衰します。
∂ht′∂ht=∏k=1t′−twσ′(wht′−k)=wt′−t!!!∏k=1t′−tσ′(wht′−k)
で増加しますt′−t。
LSTMでは、セルの状態はです。誘導体は次の形式がある
∂st
ここで、vtは忘却ゲートへの入力です。ご覧のとおり、指数関数的に速い減衰因子は関係していません。その結果、勾配が消えないパスが少なくとも1つあります。完全な導出については、[2]を参照してください。
∂st′∂st=∏k=1t′−tσ(vt+k).
vt
[1]パスカヌ、ラズバン、トマスミコロフ、ヨシュアベンジオ。「リカレントニューラルネットワークのトレーニングの難しさについて」ICML(3)28(2013):1310-1318。
[2]バイエル、ジャスティンサイモン。学習シーケンス表現。ディス ミュンヘン工科大学、ミュンヘン、Diss。、2015、2015。