人工知能 overfitting

強化学習の例にドロップアウトレイヤーが表示されないのはなぜですか？

私は強化学習を検討しており、特にOpenAI Gym AIで使用するための独自の環境の作成をいじっています。stable_baselinesプロジェクトのエージェントを使用してテストしています。ほぼすべてのRLの例で気付いたことの1つは、どのネットワークにもドロップアウトレイヤーが存在しないように見えることです。どうしてこれなの？通貨価格をシミュレートする環境と、DQNを使用して、売買のタイミングを学習しようとする単純なエージェントを作成しました。1か月分の5分間の価格データからなる特定のデータセットから取得した、ほぼ100万時間を超えるトレーニングは、非常に適しているようです。次に、別の月のデータに対してエージェントとモデルを評価すると、わずかなパフォーマンスしか得られません。古典的なオーバーフィッティングのように聞こえます。しかし、RLネットワークでドロップアウトレイヤーが表示されない理由はありますか？過剰適合を試みて対処する他のメカニズムはありますか？または多くのRLの例では問題ではありませんか？たとえば、「ブレイクアウト」ゲームで究極のハイスコアを達成するための真の方法は1つしかない可能性があるため、正確に学習し、一般化する必要はありません。それとも、環境自体の無秩序な性質が、ドロップアウトレイヤーを用意する必要がない、結果のさまざまな組み合わせを提供するはずだと考えられていますか？

13 machine-learning reinforcement-learning overfitting dropout

「ドロップアウト」手法とは何ですか？

「ドロップアウト」メソッドはどのような目的に役立ち、ニューラルネットワークの全体的なパフォーマンスをどのように改善しますか？

10 deep-network overfitting performance

タグ付けされた質問 「overfitting」

タグ付けされた質問「overfitting」