深層強化学習が不安定なのはなぜですか?


13

DeepMindの深層強化学習に関する2015年の論文では、「RLをニューラルネットワークと組み合わせる以前の試みは、学習が不安定であったために大部分失敗しました」と述べています。次に、この論文では、観測全体の相関に基づいて、この原因の一部をリストしています。

誰かがこれが何を意味するのか説明してもらえますか?ニューラルネットワークは、トレーニングには存在するがテストには存在しない可能性のある構造を学習する、過剰適合の形式ですか?それとも別の意味ですか?


論文は次の場所にあります:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html

そして、私が理解しようとしているセクションは次のとおりです。

強化学習は、ニューラルネットワークなどの非線形関数近似器を使用してアクション値(Qとも呼ばれる)関数を表す場合、不安定であるか、発散することさえ知られています。この不安定性にはいくつかの原因があります。一連の観測に存在する相関関係、Qの小さな更新がポリシーを大幅に変更し、それによってデータ分布を変更する可能性、およびアクション値とターゲット値の相関関係。

これらの不安定性に対処するには、2つの重要なアイデアを使用するQラーニングの新しいバリアントを使用します。最初に、データをランダム化するエクスペリエンスリプレイと呼ばれる生物学的にヒントを得たメカニズムを使用して、観測シーケンスの相関を削除し、データ分布の変化を平滑化しました。第二に、定期的にのみ更新されるターゲット値に向かってアクション値(Q)を調整する反復更新を使用し、それによりターゲットとの相関を減らしました。


相関のないデータでエージェントを確実にトレーニングするには、各ステップでエージェントのメモリを更新しないでください。保存ステップを修正して、データに非相関を作成します。
ナルジェスカルマーニ

回答:


11

主な問題は、他の多くの分野と同様に、DNNのトレーニングが難しい場合があることです。ここで、1つの問題は入力データの相関関係です。ビデオゲーム(実際にアルゴリズムをテストするためにそれらを使用している)について考えると、次々と撮影されたスクリーンショットは高度に相関していることが想像できます。ゲームは「継続的に」進化します。これは、NNにとっては問題になる可能性があります。同様の相関のある入力で勾配降下を何度も繰り返すと、それらが過剰適合したり、局所的な最小値になる可能性があります。これがエクスペリエンスリプレイを使用する理由です。ゲームの一連の「スナップショット」を保存してからシャッフルし、後でトレーニングを行うためにいくつかのステップを選択します。この方法では、データはもう相関していません。次に、トレーニング中にQ値(NNが予測)が進行中のポリシーをどのように変更できるかに気づきます。


「シャッフルされた」データとは、ミニバッチでサンプリングされたランダムで順不同のエクスペリエンスを意味しますか?それは、順序どおりの経験を暗示するように見える「割引後の報酬」にどのように対応しますか?
-isobretatel
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.