強化学習における俳優批評家の方法について質問があります。
これらのスライド(https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf)では、さまざまなタイプの俳優評論家について説明しています。アドバンテージ俳優批評家とTD俳優批評家は、最後のスライドで言及されています。
しかし、スライド「アドバンテージ関数の推定(2)」を見ると、アドバンテージ関数はtdエラーで近似できると言われています。次に、更新ルールには、TDアクター批評家と同じ方法でtdエラーが含まれます。
それで、アドバンテージ俳優批評家とtd俳優批評家は実際に同じですか?または、私が見ない違いはありますか?