2
ポリシー反復アルゴリズムが最適なポリシーと価値関数に収束するのはなぜですか?
私は強化学習に関するAndrew Ngの講義ノートを読んでおり、ポリシーの反復が最適値関数と最適ポリシー収束する理由を理解しようとしていました。V∗V∗V^*π∗π∗\pi^* リコールポリシーの反復は次のとおりです。 Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)} \text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := …