1
強化学習の例にドロップアウトレイヤーが表示されないのはなぜですか?
私は強化学習を検討しており、特にOpenAI Gym AIで使用するための独自の環境の作成をいじっています。stable_baselinesプロジェクトのエージェントを使用してテストしています。 ほぼすべてのRLの例で気付いたことの1つは、どのネットワークにもドロップアウトレイヤーが存在しないように見えることです。どうしてこれなの? 通貨価格をシミュレートする環境と、DQNを使用して、売買のタイミングを学習しようとする単純なエージェントを作成しました。1か月分の5分間の価格データからなる特定のデータセットから取得した、ほぼ100万時間を超えるトレーニングは、非常に適しているようです。次に、別の月のデータに対してエージェントとモデルを評価すると、わずかなパフォーマンスしか得られません。古典的なオーバーフィッティングのように聞こえます。 しかし、RLネットワークでドロップアウトレイヤーが表示されない理由はありますか?過剰適合を試みて対処する他のメカニズムはありますか?または多くのRLの例では問題ではありませんか?たとえば、「ブレイクアウト」ゲームで究極のハイスコアを達成するための真の方法は1つしかない可能性があるため、正確に学習し、一般化する必要はありません。 それとも、環境自体の無秩序な性質が、ドロップアウトレイヤーを用意する必要がない、結果のさまざまな組み合わせを提供するはずだと考えられていますか?