ポリシーグラディエント強化学習を行うときに割引特典を正規化するのはなぜですか?


11

カートポール問題を解決するための政策勾配アプローチを理解しようとしています。このアプローチでは、ポリシーの各パラメーターに対する損失の勾配を、シーケンス内のすべてのアクションのポリシー勾配の勾配の合計の期待値として表現し、そのシーケンスの割引された報酬の合計で重み付けします。

θL(θ)=E[G(S0:T,A0:T)t=0Tθlogπθ(At|St)]

そして、エピソードのすべてのサンプルの経験的平均を使用してそれを推定します。

しかし、直感的ではない部分は、いくつかの実装でエピソード間の利点を正規化するための一般的な慣行を見た(そして実際にそれがよりうまく機能する)ことです。したがって、彼らが計算した後、彼らは直接利点を使用するのではなく、むしろそれを正規化します。例えば、ここでは彼らはすべてのエピソードの後に​​行います:

discounted_epr = discount_rewards(epr)
discounted_epr -= np.mean(discounted_epr)
discounted_epr /= np.std(discounted_epr)

それの正当化は何ですか-理論と直観の両方で?エピソードが長く、大きな利点がある場合、3ムーブのエピソードよりもそのエピソードから多くを学ぶ価値があるように私には思えます。何が欠けていますか?


この答えが役に立つかもしれません:stackoverflow.com/a/56464156/6541879
sg3.14

回答:


12

一般に、安定性のためにリターンを正規化することを好みます。逆伝播方程式を計算すると、リターンが勾配に影響することがわかります。したがって、その値を特定の便利な範囲に維持したいと考えています。理論上の保証のためではなく、実際的な理由から、この慣行に従いません。同じことが、NNと組み合わせたQラーニングの値関数のクリッピングにも当てはまります。もちろん、これらのアプローチにはいくつかの欠点がありますが、一般的にアルゴリズムは、逆伝播によってネットワークの重みが極端な値にならないため、より適切に動作します。Andrej Karpathyによるこの素晴らしい投稿(私はあなたの質問に関連する部分をブロック引用として添付します)を見てください。追加の洞察が得られます。Q

より一般的な利点関数。また、リターンについてもう少し議論することを約束しました。これまでは、ゲームに勝ったかどうかに基づいて、個々のアクションの良さを判断してきました。より一般的なRL設定では、タイムステップごとに報酬を受け取ります。一般的な選択肢の1つは割引報酬を使用することです。そのため、上の図の「最終的な報酬」はになります。ここで、は0から0の間の数値ですそして、1は割引係数(例えば0.99)を呼び出しました。式は、サンプルのアクションを推奨する強さは、その後のすべての報酬の加重和であると述べていますが、その後の報酬は指数関数的にそれほど重要ではありません。実際には、これらを正規化することも重要です。たとえば、次を計算するとします。rtRt=k=0γkrt+kγRt上記の100 Pongゲームロールアウトのバッチにおける20,000アクションすべての。1つの優れたアイデアは、これらのリターンをバックプロップに接続する前に、これらのリターンを「標準化」することです(たとえば、平均の減算、標準偏差で除算)。このようにして、実行されたアクションの約半分を常に推奨し、推奨しません。数学的には、これらのトリックをポリシー勾配推定量の分散を制御する方法として解釈することもできます。より詳細な調査はここにあります。


私はブロック引用の表記に慣れていなかったので、長いブログでOPが失われることを望みませんでした。回答を編集します。これについてお詫びします!
コンスタンチノス

すべてのエピソードを個別に正規化することが理にかなっている理由を説明していただけますか?私はここai.stackexchange.com/questions/10196/…で質問を詳しく説明しました。返信を本当にいただけれ幸いです。
Gulzar

0

以下の参考文献が役立つ場合があります。

  • セクション4.1.2アドバンテージの正規化アドバンテージの正規化はトレーニングに役立つトリックであると述べています。通常、学習が速くなります。
  • 多くの桁にわたる値の学習:報酬の正規化のアルゴリズムを提供し、Atari環境での詳細な実験を提供します。基本的な考え方は、報酬は広範囲のマグニチュードにわたって変化する可能性があり、RL(ニューラルネットワークなど)で使用される関数近似子は通常、入力のスケールに不変ではないということです。したがって、正規化は重要なステップになります。詳細については、このペーパーを確認してください。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.