回答:
通常、初期状態をゼロに設定しますが、ネットワークはその初期状態に適応することを学習します。
次の記事では、最初の隠された状態を学習したり、ランダムノイズを使用することを提案しています。
基本的に、データに多数の短いシーケンスが含まれている場合、初期状態をトレーニングすることで学習を加速できます。
または、データに少数の長いシーケンスが含まれている場合、初期状態を効果的にトレーニングするのに十分なデータがない可能性があります。その場合、ノイズの多い初期状態を使用すると、学習を加速できます。彼らが言及しない考えは、ノイズジェネレータの平均と標準を学ぶことです。
この記事では、初期状態を学習することを選択した場合、ノイズを追加してもほとんどメリットがないと述べています。