80次元のword2vecのような表現を使用して、128の隠れユニットを持つ単一レイヤーLSTMを使用して、感情予測のために15000のツイートをモデリングしています。1エポック後に降下精度(ランダム= 20%で38%)を取得します。トレーニングを増やすと、トレーニングの精度が上昇し始めると検証の精度が低下し始めます。これは、過剰適合の明確な兆候です。
したがって、正則化を行う方法を考えています。隠れユニットの数を減らしたくない(128はもう少し低いようだ)。現在、50%の確率でドロップアウトを使用していますが、これはおそらく増加する可能性があります。オプティマイザーは、Kerasのデフォルトパラメーター(http://keras.io/optimizers/#adam)を持つAdamです。
データセットでこのモデルの過剰適合を減らす効果的な方法は何ですか?
私はまったく同じ問題を抱えています。最終的にどのようにしてLSTMを正規化しましたか?私のLSTMの検証精度は41%です。私の入力形状は(200、)で、64ユニットのLSTMレイヤーが1つあり、その後にドロップアウトが0.4の2つの密なレイヤーがあります。
—
ニルヴァンアンジルバッグ