REINFORCEアルゴリズムの割引率が2回表示されるのはなぜですか？

11

私は「強化学習：リチャードS.サットンとアンドリューG.バルトによる序論（完全なドラフト、2017年11月5日）」という本を読んでいました。

271ページに、一時的なモンテカルロポリシー勾配法の疑似コードが示されています。この疑似コードを見ると、なぜ割引率が2回表示されるように見えるのか理解できません。1回は更新状態で、2回目は返品内です。【下図参照】

ステップ1の後のステップの戻りは、最初のステップの戻りの単なる切り捨てのようです。また、本の上の1ページだけを見ると、割引率が1つだけの方程式（戻り値内の方程式）が見つかります。

では、なぜ疑似コードが異なるように見えるのですか？私は何かを誤解していると思います：

\begin{matrix} （13.6） & θ_{t + 1} \dot{=} θ_{t} + α G_{t} \frac{\nabla_{θ} π （ あ_{t} | S_{t} 、 θ_{t} ）}{π （ あ_{t} | S_{t} 、 θ_{t} ）} 。 \end{matrix}

${\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}$

— ディエゴ・オレリャーナ
ソース

5

割引係数は2回表示されますが、これは正しいです。

これは、（勾配をとることによって）一時的な問題のREINFORCEで最大化しようとしている関数が、特定の（分布の）開始状態からの期待される戻り値であるためです。

J （ θ ） = E_{π （ θ ）} [G_{t} | S_{t} = s_{0} 、 t = 0]

$J(\theta) = \mathbb{E}_{\pi(\theta)}[G_t|S_t = s_0, t=0]$

したがって、エピソードの間に、などの返品をサンプリングすると、これらは解決している問題との関連性が低くなり、言及したように2度目の割引係数によって削減されます。突発的な問題との極端な場合、REINFORCEは最初のアクションに最適なポリシーのみを見つけます。 $G_1$ $G_2$ $\gamma = 0$

Actor-Criticなどの継続的な問題で機能する他のアルゴリズムはに異なる定式化を使用するため、そのような係数はありません。 $J(\theta)$ $\gamma^t$

— ニール・スレーター
ソース

5

$\gamma^t$

あなたが何かを誤解していないように見えることをさらに明確にしたいのですが、本の方程式（13.6）は確かに疑似コードとは異なります。

さて、あなたがここで述べた本の版はありませんが、2018年3月22日以降のドラフトがあり、この特定のトピックのテキストは似ているようです。この版では：

$\gamma = 1$
その証明は最終的に329ページの同じ式（13.6）につながります。
$\gamma = 1$
$\gamma < 1$

— デニス・スーマーズ
ソース

2

ありがとう。2017年のドラフトでは、3番目のポイントの説明がありませんでした。

— Diego Orellana

2

@DiegoOrellana 3月22日のドラフトへのリンクがもう見つかりません。ここにはさらに遅いドラフト（日付は記載されていません）があるようです。このバージョンは実際には豪華なカバーを備えているため、ドラフトではなく最終バージョンになる可能性もあります。リンクが将来壊れる場合は、新しいリンクがここで利用できるようになると思います。

— Dennis Soemers

3

微妙な問題です。

元の論文の A3Cアルゴリズム（p.4と疑似コードの付録S3）を見ると、それらの俳優批評家アルゴリズム（一時的な問題と継続的な問題の両方で同じアルゴリズム）は、俳優に関連するガンマ係数によってオフになっています。 Sutton and Bartoブック（2019年1月版のhttp://incompleteideas.net/book/the-book.htmlの p.332）の一時的な問題に対する批評家の疑似コード。Sutton and Bartoの本には、写真にラベル付けされている追加の「最初の」ガンマがあります。それで、本かA3Cペーパーのどちらが間違っていますか？あんまり。

キーはpにあります。サットンとバルトの本の199：

割引がある場合（ガンマ<1）、終了の形式として処理する必要があります。これは、（9.2）の第2項に係数を含めるだけで実行できます。

微妙な問題は、割引係数ガンマには2つの解釈があることです。

遠い将来の報酬への重みを少なくする乗法因子。
シミュレーションされた軌道が任意のタイムステップで誤って終了する確率、1-ガンマ。この解釈は、一時的なケースにのみ意味があり、継続的なケースには意味がありません。

リテラル実装：

将来の報酬と将来の関連数量（VまたはQ）にガンマを掛けるだけです。
いくつかの軌道をシミュレートし、各タイムステップでそれらをランダムに終了（1-ガンマ）します。終了した軌道は、即時または将来の報酬を与えません。

$G \nabla\ln\pi(a|s)$

$\gamma^2 G \nabla\ln\pi(a|s)$ $0.81 G \nabla\ln\pi(a|s)$

$G \nabla\ln\pi(a|s)$ $G$

ガンマの解釈はどちらでも選択できますが、アルゴリズムへの影響に注意する必要があります。個人的には、解釈が単純であるという理由だけで解釈1を使用することを好みます。したがって、私はA3C論文のアルゴリズムを使用しています。Suttonand Bartoの本ではありません。

あなたの質問はREINFORCEアルゴリズムについてでしたが、私は俳優批評家について話し合っています。REINFORCEの2つのガンマ解釈と追加のガンマに関連するまったく同じ問題があります。

— toto2
ソース