DQNを紹介する論文「深層強化学習でAtariをプレイする」では、次のように言及しています。
エクスペリエンスリプレイで学習する場合は、ポリシー外で学習する必要があることに注意してください(現在のパラメーターはサンプルの生成に使用したパラメーターと異なるため)。これにより、Qラーニングの選択が動機付けられます。
意味がよくわかりませんでした。SARSAを使用a'
しs'
て、メモリ内で実行するアクションのアクションを記憶し、それからバッチをサンプリングし、DQNで行ったようにQを更新するとどうなりますか?また、俳優批評的手法(特定の場合はA3C)でエクスペリエンスリプレイを使用できますか?そうでない場合、なぜですか?
(s, a, r, s')
この経験をリプレイのために引き出します。今、私の現在のポリシーでは、あなたが引き受けるべきだと言っていると仮定a'
しs'
、それから私Q(s, a)
はそうすべきであるr + Q(s', a')
とマークし、勾配降下を行います。私はポリシーに基づいたリプレイの経験をしていると思います。プロセスに問題はありますか?