微妙な問題です。
元の論文の A3Cアルゴリズム(p.4と疑似コードの付録S3)を見ると、それらの俳優批評家アルゴリズム(一時的な問題と継続的な問題の両方で同じアルゴリズム)は、俳優に関連するガンマ係数によってオフになっています。 Sutton and Bartoブック(2019年1月版のhttp://incompleteideas.net/book/the-book.htmlの p.332)の一時的な問題に対する批評家の疑似コード。Sutton and Bartoの本には、写真にラベル付けされている追加の「最初の」ガンマがあります。それで、本かA3Cペーパーのどちらが間違っていますか?あんまり。
キーはpにあります。サットンとバルトの本の199:
割引がある場合(ガンマ<1)、終了の形式として処理する必要があります。これは、(9.2)の第2項に係数を含めるだけで実行できます。
微妙な問題は、割引係数ガンマには2つの解釈があることです。
- 遠い将来の報酬への重みを少なくする乗法因子。
- シミュレーションされた軌道が任意のタイムステップで誤って終了する確率、1-ガンマ。この解釈は、一時的なケースにのみ意味があり、継続的なケースには意味がありません。
リテラル実装:
- 将来の報酬と将来の関連数量(VまたはQ)にガンマを掛けるだけです。
- いくつかの軌道をシミュレートし、各タイムステップでそれらをランダムに終了(1-ガンマ)します。終了した軌道は、即時または将来の報酬を与えません。
G ∇ LNπ(a | s )
γ2G∇ LNπ(a | s )0.81 G ∇ LNπ(a | s )
G ∇ LNπ(a | s )G
ガンマの解釈はどちらでも選択できますが、アルゴリズムへの影響に注意する必要があります。個人的には、解釈が単純であるという理由だけで解釈1を使用することを好みます。したがって、私はA3C論文のアルゴリズムを使用しています。Suttonand Bartoの本ではありません。
あなたの質問はREINFORCEアルゴリズムについてでしたが、私は俳優批評家について話し合っています。REINFORCEの2つのガンマ解釈と追加のガンマに関連するまったく同じ問題があります。