なぜベースラインはあるタイムステップの状態に条件があるのか
ロボット工学では、強化学習手法はロボットの制御パターンを見つけるために使用されます。残念ながら、ほとんどのポリシーグラディエントメソッドは統計的にバイアスがかかっており、ロボットを危険な状況に陥らせる可能性があります。JanPetersとStefan Schaalの 2ページを参照してください。 モータープリミティブ学習では、ポリシーの勾配パラメーターの最適化が学習ステップを目標に導くため、問題を克服することができます。 引用:「勾配推定が偏りがなく、学習率がsum(a)= 0を満たす場合、学習プロセスは少なくとも極小値に収束することが保証されます[...]したがって、生成されたデータのみからポリシー勾配を推定する必要がありますタスクの実行中。」(同じ論文の4ページ) Berkeley RLクラスの問題1 の宿題では、差し引かれたベースラインがタイムステップtでの状態の関数である場合、ポリシーの勾配が依然として不偏であることを示すように求められます。 ▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0 \triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0 私はそのような証明の最初のステップが何であるかについて苦労しています。誰かが私を正しい方向に向けることができますか?私の当初の考えは、何らかの形で総期待値の法則を使用して、b(st)の期待値をTに条件付きにすることでしたが、確信が持てません。前もって感謝します :) 方程式の元のpngへのリンク