回答:
あなたの質問に答えるために、最初にいくつかの重要な(不)等式を書きましょう。
ベルマン最適化方程式:
ここで、は最適値関数です。
政策改善定理(ピット):
ましょうと決定論的方針の任意のペアことなど、そのすべてについて、 次にポリシーかそれ以上である必要があります。つまり、すべての状態から期待されるリターン以上を取得する必要があります。s。 π ' S ∈ S Q π(S 、π '(S ))≥ のV π(S )π ' π
(Sutton&Barto、強化学習:紹介ブックの89ページを検索)
次のルールにより、すべての州でポリシーを改善できます。
新しいポリシーはPitの条件を満たしているため、かそれ以上です。場合なく、より良い、などの良好となるよりは、すべてのため。定義から推測すると、次のようになります。 π π ' π V π '(S )= V族π(S )S π '
しかし、この等式はベルマン最適化方程式と同じであるため、はと等しくなければなりません。 V *
上記のことから、ポリシーを改善し、以前と同じ価値関数を得た場合、新しいポリシーは最適なポリシーの1つでなければならないことは明らかです。詳細については、Sutton&Barto(2012)を参照してください。
正解です。現在値関数の推定値または現在のポリシーの推定値は、アルゴリズムの状態を完全に説明できます。それぞれが、もう一方の固有の次の選択を意味します。以下にリンクされた論文から、
「ポリシーの反復は、ます。」
https://editorialexpress.com/jrust/research/siam_dp_paper.pdf