タグ付けされた質問 「policy-iteration」

2
ポリシー反復アルゴリズムが最適なポリシーと価値関数に収束するのはなぜですか?
私は強化学習に関するAndrew Ngの講義ノートを読んでおり、ポリシーの反復が最適値関数と最適ポリシー収束する理由を理解しようとしていました。V∗V∗V^*π∗π∗\pi^* リコールポリシーの反復は次のとおりです。 Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)} \text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.