カートポール問題を解決するための政策勾配アプローチを理解しようとしています。このアプローチでは、ポリシーの各パラメーターに対する損失の勾配を、シーケンス内のすべてのアクションのポリシー勾配の勾配の合計の期待値として表現し、そのシーケンスの割引された報酬の合計で重み付けします。
そして、エピソードのすべてのサンプルの経験的平均を使用してそれを推定します。
しかし、直感的ではない部分は、いくつかの実装でエピソード間の利点を正規化するための一般的な慣行を見た(そして実際にそれがよりうまく機能する)ことです。したがって、彼らが計算した後、彼らは直接利点を使用するのではなく、むしろそれを正規化します。例えば、ここでは彼らはすべてのエピソードの後に行います:
discounted_epr = discount_rewards(epr)
discounted_epr -= np.mean(discounted_epr)
discounted_epr /= np.std(discounted_epr)
それの正当化は何ですか-理論と直観の両方で?エピソードが長く、大きな利点がある場合、3ムーブのエピソードよりもそのエピソードから多くを学ぶ価値があるように私には思えます。何が欠けていますか?