強化学習における俳優批評家損失関数


9

強化学習の俳優批評学習では、あなたが取る行動を決定する「俳優」と、それらの行動を評価する「批評家」がいると理解していますが、私は損失関数が実際に何を言っているのか混乱しています私。

Sutton and Bartonの本のページ274(pdfの292)でここhttp://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdfにあります

それらはアルゴリズムを記述します。

状態値(批評家によって決定された)に関する情報を組み込むことにより、アクターを更新したいと理解できます。これは、δ これは上記の情報を組み込んでいますが、状態値関数の勾配を調べている理由がよくわかりません。

最小化しようとしている目的関数の勾配を見ているのではないですか?この章の前半で、彼はポリシーのパフォーマンスを単純にその値関数と見なすことができると述べています。この場合、各状態の値を最大化する方向にパラメーターを調整するだけです。それは政策を調整することによってなされるべきだと私は思った、私たちは状態を評価する方法を変えることによってではない。

ありがとう


リンクが死んでいる。修正するか、関連コンテンツをアップロードしてください
Gulzar

回答:


7

まず、何についてのしっかりした理解を構築してみましょう δ手段。多分あなたはこれのすべてを知っています、しかし私の意見ではとにかくそれを越えるのは良いことです。

δR+γv^(S,w)v^(S,w)

から始めましょう v^(S,w)期間。その用語は状態にあることの価値ですS、現在のパラメータ化の下で批評家によって推定されたとおり w。この状態値は、基本的に、この時点以降に得られると予想されるすべての報酬の割引合計です。

v^(S,w) 非常によく似た意味で、唯一の違いは次の状態の値であることです S 以前の状態の代わりに S。これを掛けて割り引くとγ、観察された報酬を追加します R それに対して、方程式の右辺のマイナスの前の部分を取得します。 R+γv^(S,w)。これは基本的にはv^(S,w) (以前の状態にあることの価値の推定です S)、ただし今回は、新たに観察された情報に基づいています(R)および状態全体の推定値だけではなく、次の状態の値の推定値。

そう、 δ 正確に同じ値を推定する2つの異なる方法の違いです。正確であることがわかっているもう少し多くの情報に基づいているため、一部の部分(マイナスの左側)は少し信頼性の高い推定であると予想されます(R)。

δ からの遷移が正の場合 SS より大きな報酬を与えた R 批評家が期待したよりも、それが批評家が期待したよりも小さかった場合は負(現在のパラメータ化に基づく) w)。


最小化しようとしている目的関数の勾配を見ているのではないですか?この章の前半で、彼はポリシーのパフォーマンスを単純にその値関数と見なすことができると述べています。この場合、各状態の値を最大化する方向にパラメーターを調整するだけです。それは政策を調整することによってなされるべきだと私は思った、私たちは状態を評価する方法を変えることによってではない。

はい、これを実行する必要があります。これは、次の行で実行されることとまったく同じです。

θθ+αIδθlogπ(AS,θ)

ただし、更新するのはそれだけではありません。

状態値(批評家によって決定された)に関する情報を組み込むことにより、アクターを更新したいと理解できます。これは、前述の情報を組み込んだδの値を介して行われますが、状態値関数の勾配を見ている理由がよくわかりません。

批評家は常に州の価値を可能な限り正確に推定することになっているため、私たちもこれを行いたいと考えています。もしδ はゼロ以外です。これは、評論家に間違いを犯したことを意味します。そのため、批評家を更新してより正確にする必要もあります。


1
そうです、批評家の更新は、実際には状態ごとの「最高」の値を与えるように調整することではなく、可能な限り最高の推定値を与えるように調整することであり、そうすることで、モデルにとって最高の「批評家」になります。これを明確にしてくれてありがとう!彼らの鍵は私の誤解でしたδあなたが説明したように。
trytolearn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.