Advantage Actor CriticとTD Actor Criticの違いは何ですか？

7

強化学習における俳優批評家の方法について質問があります。

これらのスライド（https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf）では、さまざまなタイプの俳優評論家について説明しています。アドバンテージ俳優批評家とTD俳優批評家は、最後のスライドで言及されています。

しかし、スライド「アドバンテージ関数の推定（2）」を見ると、アドバンテージ関数はtdエラーで近似できると言われています。次に、更新ルールには、TDアクター批評家と同じ方法でtdエラーが含まれます。

それで、アドバンテージ俳優批評家とtd俳優批評家は実際に同じですか？または、私が見ない違いはありますか？

reinforcement-learning

— needRhelp
ソース

0

利点はTDエラーで概算できます。これは、各遷移の後にを更新する場合に特に役立ちます。 $\theta$

バッチアプローチの場合は、計算できます。たとえば、フィットされたQ反復と、それに続くます。これを使用すると、一般的なアドバンテージ関数が得られ、ポリシーの勾配の変化は、グローバル/実際のアドバンテージ関数に近いため、はるかに安定する可能性があります。 $Q_w(A,S)$ $V(S)$

— カレル・マセック
ソース

0

彼らは違う。利点は、アクション値と状態値の違いです。TDエラーは、値関数が最小化したいエラー項です。

TDエラーを使用して、利点を概算できます。など、アドバンテージを概算する他の方法もあります(return - state_value)。

— SQ
ソース