DeepMindの深層強化学習に関する2015年の論文では、「RLをニューラルネットワークと組み合わせる以前の試みは、学習が不安定であったために大部分失敗しました」と述べています。次に、この論文では、観測全体の相関に基づいて、この原因の一部をリストしています。
誰かがこれが何を意味するのか説明してもらえますか?ニューラルネットワークは、トレーニングには存在するがテストには存在しない可能性のある構造を学習する、過剰適合の形式ですか?それとも別の意味ですか?
論文は次の場所にあります:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html
そして、私が理解しようとしているセクションは次のとおりです。
強化学習は、ニューラルネットワークなどの非線形関数近似器を使用してアクション値(Qとも呼ばれる)関数を表す場合、不安定であるか、発散することさえ知られています。この不安定性にはいくつかの原因があります。一連の観測に存在する相関関係、Qの小さな更新がポリシーを大幅に変更し、それによってデータ分布を変更する可能性、およびアクション値とターゲット値の相関関係。
これらの不安定性に対処するには、2つの重要なアイデアを使用するQラーニングの新しいバリアントを使用します。最初に、データをランダム化するエクスペリエンスリプレイと呼ばれる生物学的にヒントを得たメカニズムを使用して、観測シーケンスの相関を削除し、データ分布の変化を平滑化しました。第二に、定期的にのみ更新されるターゲット値に向かってアクション値(Q)を調整する反復更新を使用し、それによりターゲットとの相関を減らしました。