1
「体験リプレイ」とは何ですか?その利点は何ですか?
私はGoogleのDeepMind Atariの論文を読んでおり、「エクスペリエンスリプレイ」の概念を理解しようとしています。経験リプレイは、他の多くの強化学習ペーパー(特にAlphaGoペーパー)で取り上げられるため、その仕組みを理解したいと思います。以下は抜粋です。 まず、データをランダム化するエクスペリエンスリプレイと呼ばれる生物学的にヒントを得たメカニズムを使用して、観測シーケンスの相関を取り除き、データ分布の変化を滑らかにしました。 次に、このペーパーは次のように詳しく説明します。 他の安定した方法は、ニューラルフィットQ-反復として、強化学習の設定でニューラルネットワークを訓練するために存在するが、これらの方法では、ネットワークの繰り返し訓練伴う新規の反復の数百人を。その結果、これらの方法は、私たちのアルゴリズムとは異なり、非効率的であり、大規模なニューラルネットワークではうまく使用できません。図1に示す深い畳み込みニューラルネットワークを使用して、近似値関数をパラメーター化します。ここで、は反復でのQネットワークのパラメーター(つまり重み)です。エクスペリエンスのリプレイを実行するために、各タイムステップエージェントのエクスペリエンスを保存しますQ (s 、a ; θ私)Q(s、a;θ私)Q(s, a; \theta_i)θ私θ私\theta_i私私iet= (st、t、rt、st + 1)et=(st、at、rt、st+1)e_t = (s_t, a_t, r_t, s_{t+1})tttデータセット内。学習中に、経験値サンプル(またはミニバッチ)にQ学習の更新を適用します。反復でのQ学習の更新では、次の損失関数が使用されます。Dt= { e1、… 、et}Dt={e1、…、et}D_t = \{e_1, \dots, e_t \}(s 、a 、r 、s′)〜U(D )(s、a、r、s′)〜うん(D)(s, a, r, s') \sim U(D)私私i L私(θ私)= E(s 、a 、r 、s′)〜U(D )[ ( r + γ最大a′Q (s′、′; θ−私)− Q (s …