タグ付けされた質問 「reinforce」

3
REINFORCEアルゴリズムの割引率が2回表示されるのはなぜですか?
私は「強化学習:リチャードS.サットンとアンドリューG.バルトによる序論(完全なドラフト、2017年11月5日)」という本を読んでいました。 271ページに、一時的なモンテカルロポリシー勾配法の疑似コードが示されています。この疑似コードを見ると、なぜ割引率が2回表示されるように見えるのか理解できません。1回は更新状態で、2回目は返品内です。【下図参照】 ステップ1の後のステップの戻りは、最初のステップの戻りの単なる切り捨てのようです。また、本の上の1ページだけを見ると、割引率が1つだけの方程式(戻り値内の方程式)が見つかります。 では、なぜ疑似コードが異なるように見えるのですか?私は何かを誤解していると思います: θt + 1 =˙ θt+ α Gt∇θπ(At|St、θt)π(At|St、θt)。(13.6)(13.6)θt+1 =˙ θt+αGt∇θπ(あt|St、θt)π(あt|St、θt)。 {\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.