なぜベースラインはあるタイムステップの状態に条件があるのか


9

ロボット工学では、強化学習手法はロボットの制御パターンを見つけるために使用されます。残念ながら、ほとんどのポリシーグラディエントメソッドは統計的にバイアスがかかっており、ロボットを危険な状況に陥らせる可能性があります。JanPetersとStefan Schaalの 2ページを参照してください。

モータープリミティブ学習では、ポリシーの勾配パラメーターの最適化が学習ステップを目標に導くため、問題を克服することができます。

引用:「勾配推定が偏りがなく、学習率がsum(a)= 0を満たす場合、学習プロセスは少なくとも極小値に収束することが保証されます[...]したがって、生成されたデータのみからポリシー勾配を推定する必要がありますタスクの実行中。」(同じ論文の4ページ)

Berkeley RLクラスの問題1 の宿題では、差し引かれたベースラインがタイムステップtでの状態の関数である場合、ポリシーの勾配が依然として不偏であることを示すように求められます。

θt=1TE(st,at)p(st,at)[b(st)]=0

私はそのような証明の最初のステップが何であるかについて苦労しています。誰かが私を正しい方向に向けることができますか?私の当初の考えは、何らかの形で総期待値法則を使用して、b(st)の期待値をTに条件付きにすることでしたが、確信が持てません。前もって感謝します :)

方程式の元のpngへのリンク


SE:AIへようこそ! (私は方程式をMathJaxに自由に変換しました。元の.pngは下部にリンクされています。)
DukeZhou

2
LaTeXで正確な方程式を書き留めてフォーマットする時間はあまりありません(まだ答えられない場合は後で)が、ここにヒントがあります。合計がポリシーに依存しないようにして、導関数が0になるようにする必要があります。したがって、ポリシーp(s、a)を使用して何らかの形で表現しようとします。答えは、SuttonのRL Introブックのポリシーグラディエントの章にもあります。
Hai Nguyen

1
どうもありがとうございました!そのヒントを使用して開始します。また、Sutton RLにあることについて教えてくれてありがとう。私はその本を読んでいて、それは非常に優れています!
Laura C

@LauraC誰よりも早く回答を見つけた場合は、ここに戻って正式な回答として投稿してください(人々はこの質問を間違いなく気に入っています:)
DukeZhou

質問のコンテキスト情報を追加しました。
マヌエルロドリゲス

回答:


7

反復期待の法則を使用すると、次のようになります。

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

積分で書かれ、勾配を内部に移動します(線形性)

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st)atst1

=t=1Tstp(st)b(st)θ1dst=

θ1=0


1

宿題の期限はこの回答の執筆の2日前であるようですが、何らかの形でまだ関連がある場合は、関連するクラスノート(宿題と一緒に質問で提供された場合に役立つはずです)がここにあります

Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

πθ(at|st)

この演習は、宿題の次のステップの準備であり、シラバスまたはクラスノートに完全期待の法則が含まれていないバークレーの機械学習入門コースCS189の復習のみを利用しています。

すべての関連情報は、上記のクラスノートのリンクにあり、中間代数のみが必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.