4
値の反復とポリシーの反復の違いは何ですか?
強化学習では、ポリシーの反復と値の反復の違いは何ですか? 私が理解している限り、値の反復では、ベルマン方程式を使用して最適なポリシーを解きますが、ポリシーの反復では、ポリシーπをランダムに選択し、そのポリシーの報酬を見つけます。 私の疑問は、PIでランダムポリシーπを選択している場合、複数のランダムポリシーを選択している場合でも、それが最適なポリシーであることがどのように保証されるかということです。