タグ付けされた質問 「actor-critic」

1
強化学習における俳優批評家損失関数
強化学習の俳優批評学習では、あなたが取る行動を決定する「俳優」と、それらの行動を評価する「批評家」がいると理解していますが、私は損失関数が実際に何を言っているのか混乱しています私。 Sutton and Bartonの本のページ274(pdfの292)でここhttp://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdfにあります それらはアルゴリズムを記述します。 状態値(批評家によって決定された)に関する情報を組み込むことにより、アクターを更新したいと理解できます。これは、δδ\delta これは上記の情報を組み込んでいますが、状態値関数の勾配を調べている理由がよくわかりません。 最小化しようとしている目的関数の勾配を見ているのではないですか?この章の前半で、彼はポリシーのパフォーマンスを単純にその値関数と見なすことができると述べています。この場合、各状態の値を最大化する方向にパラメーターを調整するだけです。それは政策を調整することによってなされるべきだと私は思った、私たちは状態を評価する方法を変えることによってではない。 ありがとう
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.