エクスペリエンスの再生にポリシー外のアルゴリズムが必要なのはなぜですか?


12

DQNを紹介する論文「深層強化学習でAtariをプレイする」では、次のように言及しています。

エクスペリエンスリプレイで学習する場合は、ポリシー外で学習する必要があることに注意してください(現在のパラメーターはサンプルの生成に使用したパラメーターと異なるため)。これにより、Qラーニングの選択が動機付けられます。

意味がよくわかりませんでした。SARSAを使用a's'て、メモリ内で実行するアクションのアクションを記憶し、それからバッチをサンプリングし、DQNで行ったようにQを更新するとどうなりますか?また、俳優批評的手法(特定の場合はA3C)でエクスペリエンスリプレイを使用できますか?そうでない場合、なぜですか?

回答:


2

SARSAなどのポリシーに基づく方法では、すべての状態のアクションがエージェントの現在のポリシーに基づいて選択されることを期待しています。これは通常、報酬を活用する傾向があります。

そうすることで、最後の報酬に基づいてポリシーを更新すると、ポリシーが改善されます。ここでは特に、特定の状態/アクションの値を予測するNNのパラメーターを更新します。

ただし、エクスペリエンスのリプレイのように、保存された遷移に基づいてポリシーを更新する場合、実際には現在のポリシーではないポリシーからアクションを評価しています。

Q値は、現在のエージェントポリシーに従う状態から得られる将来の報酬に基づいて評価されます。

ただし、現在は別のポリシーに従っているため、これは当てはまりません。したがって、彼らはイプシロン貪欲なアプローチに基づいて調査する一般的なポリシー外の方法を使用します。


感謝しますが、私はまだこれを理解していません:TD(0)更新ルールを使用し、トランジションを覚えていて、(s, a, r, s')この経験をリプレイのために引き出します。今、私の現在のポリシーでは、あなたが引き受けるべきだと言っていると仮定a's'、それから私Q(s, a)はそうすべきであるr + Q(s', a')とマークし、勾配降下を行います。私はポリシーに基づいたリプレイの経験をしていると思います。プロセスに問題はありますか?
DarkZero

問題は、以前とは異なるポリシーを使用しているため、そのアクションは古いポリシーを使用して選択されているため、実際にはポリシーに基づいているとは言えないことです。ポリシーのQ値を修正する同じもので多くのアクションを実行する必要があります。ここでは、そのポリシーが選択できなかったアクションを使用して、現在のポリシーを評価しようとします。
ダンテ

だから私はここでポリシー外でそれをやっていると言うことができますか?理論上、そうすることの結果は何でしょうか?
-DarkZero

1
したがって、私があなたを正しく理解するなら、Qラーニングのようなポリシー外の方法を使用するか、将来の予想報酬として常に最大Qを選択する必要があります。現在のアクションが何であるかは問題ではありません。これは、将来の最大Qを常に選択する場合、最適なポリシーの下でQがQに収束するというQ学習の特性であるためです。または、率直に1つのポリシーに従い、このポリシーを介して将来のアクションを含むすべてのアクションを選択し、ポリシーに基づいて更新する必要があります。そうですか?
-DarkZero

1
今まで、政策上の方法がなぜ良いのか理解できません。ポリシー外の方法はより自由度が高く、最適なポリシーを単独で発見できます。stats.stackexchange.com/questions/265354/…への回答もよろしいですか?すべての議論に感謝します。
-DarkZero

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.