一般化された利点の見積もりはどのように機能しますか？

8

私はしばらくの間、GAEを私のA2C実装に追加しようとしていますが、それがどのように機能するかを完全に理解しているようには思えません。

私の理解では、ロールアウトの値に基づいて利点を「平均化」（または一般化）することで、利点推定関数の分散を減らします。

私は自分で数学を試してみましたが、結局のところ、展開全体で1つの利点しかありませんでしたか？通常、ロールアウトのタイムステップごとに1つの利点があります。

誰でもGAEの直感について説明できますか？

machine-learning reinforcement-learning

7

このドキュメントの補足資料であるDeepMimicで、GAEの説明が非常に直感的にわかりました。論文を読む必要はありません。143：15ページの補足資料セクションに直接進んでください。λ-returnについては、Sutton and BartoのReinforcement Learningブックで多くの情報を見つけることができます。それが役に立てば幸い！

— コンスタンティノス
ソース

1

これは、これまでに読んだλ-returnの最も明確な説明です。

— MasterScrat

1

λ-returnの良い説明は、Lilian Wengのブログ：Combining TD and MC Learningにあります。

Generalized Advantage Estimator GAE（λ）は、λリターンを使用してアドバンテージ関数を推定します。

— マスタースクラッチ
ソース