私は最近LSTMに興味を持ち始めましたが、その重みが時を越えて共有されていることを知って驚きました。
時間にわたって重みを共有する場合、入力時間シーケンスは可変長になる可能性があることを知っています。
共有ウェイトを使用すると、トレーニングするパラメーターがはるかに少なくなります。
私の理解から、LSTMと他の学習方法を比較する理由は、学習したいデータにある種の時間的/シーケンシャルな構造/依存性があると信じているためです。可変長の「豪華」を犠牲にして、長い計算時間を受け入れると、共有ウェイトのないRNN / LSTM(つまり、異なるウェイトを持つタイムステップごとに)のパフォーマンスが向上しませんか?