強化学習では、ポリシーの反復と値の反復の違いは何ですか?
私が理解している限り、値の反復では、ベルマン方程式を使用して最適なポリシーを解きますが、ポリシーの反復では、ポリシーπをランダムに選択し、そのポリシーの報酬を見つけます。
私の疑問は、PIでランダムポリシーπを選択している場合、複数のランダムポリシーを選択している場合でも、それが最適なポリシーであることがどのように保証されるかということです。
強化学習では、ポリシーの反復と値の反復の違いは何ですか?
私が理解している限り、値の反復では、ベルマン方程式を使用して最適なポリシーを解きますが、ポリシーの反復では、ポリシーπをランダムに選択し、そのポリシーの報酬を見つけます。
私の疑問は、PIでランダムポリシーπを選択している場合、複数のランダムポリシーを選択している場合でも、それが最適なポリシーであることがどのように保証されるかということです。
回答:
それらを並べて見てみましょう。比較のための重要な部分が強調表示されています。図は、サットンとバルトの著書「強化学習:はじめに」からのものです。
私の経験では、ポリシーは値関数よりも速く収束するため、ポリシーの反復は値の反復よりも高速です。これも本に書かれているのを覚えています。
混乱は主にこれらのやや類似した用語すべてから来たと思いますが、これも以前は混乱していました。
で政策反復アルゴリズム、あなたはランダムなポリシーで始まり、その後、その後、前の値の関数に基づいて、新たな(改善)政策を見つけ、というように、そのポリシー(政策評価ステップ)の値関数を見つけます。このプロセスでは、各ポリシーが前のポリシーよりも厳密に改善されることが保証されます(すでに最適である場合を除く)。ポリシーが与えられると、その値関数はベルマン演算子を使用して取得できます。
で値の反復は、最適値関数に達するまで、ランダム値関数で開始し、その後、反復プロセスで新しい(改善)値関数を見つけます。最適値関数から最適なポリシーを簡単に導き出すことができることに注意してください。このプロセスは、最適性のベルマン演算子に基づいています。
ある意味では、両方のアルゴリズムは同じ動作原理を共有しており、一般化されたポリシー反復の2つのケースと見なすことができます。ただし、最適性のBellman演算子には、非線形であるmax演算子が含まれているため、さまざまな機能があります。さらに、純粋な値の反復と純粋なポリシーの反復の間でハイブリッドメソッドを使用することが可能です。
私に関する限り、@ zyxueの考えに反して、VIは一般的にPIよりもはるかに高速です。
すでにご存知のように、理由は非常に単純です。ベルマン方程式は、特定のポリシーの値関数を解くために使用されます。最適なポリシーの価値関数を直接解くことができるので、現在のポリシーの価値関数を解くことは明らかに時間の無駄です。
PIの収束性についての質問ですが、各情報状態の戦略を改善すれば、ゲーム全体の戦略を改善するという事実を見落としているかもしれません。これは、反事実的後悔の最小化に精通している場合にも簡単に証明できます。各情報状態の後悔の合計が全体的な後悔の上限を形成しているため、各状態の後悔を最小化すると、全体的な後悔が最小化されます。最適なポリシーにつながります。