プログラミング value-iteration

値の反復とポリシーの反復の違いは何ですか？

強化学習では、ポリシーの反復と値の反復の違いは何ですか？私が理解している限り、値の反復では、ベルマン方程式を使用して最適なポリシーを解きますが、ポリシーの反復では、ポリシーπをランダムに選択し、そのポリシーの報酬を見つけます。私の疑問は、PIでランダムポリシーπを選択している場合、複数のランダムポリシーを選択している場合でも、それが最適なポリシーであることがどのように保証されるかということです。

93 machine-learning reinforcement-learning markov-models value-iteration

タグ付けされた質問 「value-iteration」

タグ付けされた質問「value-iteration」