再帰型ニューラルネットワークのウォームアップとして、別の周波数の別の正弦波から正弦波を予測しようとしています。
私のモデルは単純なRNNであり、そのフォワードパスは次のように表すことができます。
どこ sigmoïd関数です。
入力と期待される出力の両方が同じ周波数の2つの正弦波であるが(おそらく)位相シフトがある場合、モデルは適切な近似に適切に収束できます。
ただし、次の場合、モデルは極小値に収束し、常にゼロを予測します。
- 入力:
- 予想される出力:
サイズ16のミニバッチ、学習率0.01、シーケンス長16、サイズ32の非表示レイヤーを使用して、10エポックのトレーニング後に完全な入力シーケンスが与えられたときにネットワークが予測するのは、次のとおりです。
そのため、ネットワークは時間をかけて学習することができず、現在の入力にのみ依存して予測を行うと思います。
学習率、シーケンスの長さ、隠しレイヤーのサイズを調整しようとしましたが、あまりうまくいきませんでした。
LSTMでもまったく同じ問題が発生します。これらのアーキテクチャに欠陥があるとは思わないでください。何が間違っているのかについてのヒントはありますか?