回答:
データの性質と内部相関に完全に依存するため、経験則はありません。ただし、大量のデータがある場合は、2層LSTMで大量の時系列問題/ベンチマークをモデル化できます。
さらに、系列全体に時間を逆伝播するのではなく、通常(200〜300)の最後のステップに逆伝播します。最適な値を見つけるには、グリッド検索またはベイジアン最適化を使用して相互検証できます。さらに、パラメーターはhttps://github.com/wojzaremba/lstm/blob/master/main.luaで確認できます。
そのため、シーケンスの長さはモデルのトレーニングに実際には影響しませんが、トレーニングの例が増えたように、リセットするのではなく前の状態を維持するだけです。
y
。このように、RNNはBPTTに選択された35のステップの前に何かに基づいてどのように重みを調整しますか?