まず、何についてのしっかりした理解を構築してみましょう δ手段。多分あなたはこれのすべてを知っています、しかし私の意見ではとにかくそれを越えるのは良いことです。
δ← R + γv^(S』、w )−v^(S、w )
から始めましょう v^(S、w )期間。その用語は状態にあることの価値ですS、現在のパラメータ化の下で批評家によって推定されたとおり w。この状態値は、基本的に、この時点以降に得られると予想されるすべての報酬の割引合計です。
v^(S′,w) 非常によく似た意味で、唯一の違いは次の状態の値であることです S′ 以前の状態の代わりに S。これを掛けて割り引くとγ、観察された報酬を追加します R それに対して、方程式の右辺のマイナスの前の部分を取得します。 R+γv^(S′,w)。これは基本的にはv^(S,w) (以前の状態にあることの価値の推定です S)、ただし今回は、新たに観察された情報に基づいています(R)および状態全体の推定値だけではなく、次の状態の値の推定値。
そう、 δ 正確に同じ値を推定する2つの異なる方法の違いです。正確であることがわかっているもう少し多くの情報に基づいているため、一部の部分(マイナスの左側)は少し信頼性の高い推定であると予想されます(R)。
δ からの遷移が正の場合 S に S′ より大きな報酬を与えた R 批評家が期待したよりも、それが批評家が期待したよりも小さかった場合は負(現在のパラメータ化に基づく) w)。
最小化しようとしている目的関数の勾配を見ているのではないですか?この章の前半で、彼はポリシーのパフォーマンスを単純にその値関数と見なすことができると述べています。この場合、各状態の値を最大化する方向にパラメーターを調整するだけです。それは政策を調整することによってなされるべきだと私は思った、私たちは状態を評価する方法を変えることによってではない。
はい、これを実行する必要があります。これは、次の行で実行されることとまったく同じです。
θ←θ+αIδ∇θlogπ(A∣S,θ)
ただし、更新するのはそれだけではありません。
状態値(批評家によって決定された)に関する情報を組み込むことにより、アクターを更新したいと理解できます。これは、前述の情報を組み込んだδの値を介して行われますが、状態値関数の勾配を見ている理由がよくわかりません。
批評家は常に州の価値を可能な限り正確に推定することになっているため、私たちもこれを行いたいと考えています。もしδ はゼロ以外です。これは、評論家に間違いを犯したことを意味します。そのため、批評家を更新してより正確にする必要もあります。