一般化された利点の見積もりはどのように機能しますか?


8

私はしばらくの間、GAEを私のA2C実装に追加しようとしていますが、それがどのように機能するかを完全に理解しているようには思えません。

私の理解では、ロールアウトの値に基づいて利点を「平均化」(または一般化)することで、利点推定関数の分散を減らします。

私は自分で数学を試してみましたが、結局のところ、展開全体で1つの利点しかありませんでしたか?通常、ロールアウトのタイムステップごとに1つの利点があります。

誰でもGAEの直感について説明できますか?

回答:


7

このドキュメントの補足資料であるDeepMimicで、GAEの説明が非常に直感的にわかりました。論文を読む必要はありません。143:15ページの補足資料セクションに直接進んでください。λ-returnについては、Sutton and BartoのReinforcement Learningブックで多くの情報を見つけることができます。それが役に立てば幸い!


1
これは、これまでに読んだλ-returnの最も明確な説明です。
MasterScrat

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.