Advantage Actor CriticとTD Actor Criticの違いは何ですか?


7

強化学習における俳優批評家の方法について質問があります。

これらのスライド(https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf)では、さまざまなタイプの俳優評論家について説明しています。アドバンテージ俳優批評家とTD俳優批評家は、最後のスライドで言及されています。

ここに画像の説明を入力してください

しかし、スライド「アドバンテージ関数の推定(2)」を見ると、アドバンテージ関数はtdエラーで近似できると言われています。次に、更新ルールには、TDアクター批評家と同じ方法でtdエラーが含まれます。

それで、アドバンテージ俳優批評家とtd俳優批評家は実際に同じですか?または、私が見ない違いはありますか?

回答:


0

利点はTDエラーで概算できます。これは、各遷移の後にを更新する場合に特に役立ちます。θ

バッチアプローチの場合は、計算できます。たとえば、フィットされたQ反復と、それに続くます。これを使用すると、一般的なアドバンテージ関数が得られ、ポリシーの勾配の変化は、グローバル/実際のアドバンテージ関数に近いため、はるかに安定する可能性があります。QwSVS


0

彼らは違う。利点は、アクション値と状態値の違いです。TDエラーは、値関数が最小化したいエラー項です。

TDエラーを使用して、利点を概算できます。など、アドバンテージを概算する他の方法もあります(return - state_value)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.