ポリシーと値の反復アルゴリズムの収束条件


8

ポリシーと値の反復アルゴリズムを使用して、マルコフ決定プロセスの問題を解決できます。収束に必要な条件を理解するのに苦労しています。最適なポリシーが2つのステップ(つまり、反復ii + 1)の間に変化しない場合、アルゴリズムが収束したと結論付けることができますか?そうでない場合、いつですか?

回答:


3

あなたの質問に答えるために、最初にいくつかの重要な(不)等式を書きましょう。

ベルマン最適化方程式:

v(s)=maxaE[Rt+1+γv(St+1)St=s,At=a]=maxasp(ss,a)[r(s,a,s)+γv(s)]

ここで、v(.)は最適値関数です。

政策改善定理(ピット):

ましょうと決定論的方針の任意のペアことなど、そのすべてについて、 次にポリシーかそれ以上である必要があります。つまり、すべての状態から期待されるリターン以上を取得する必要があります。s。 π ' S S Q πS π 'S のV πS π ' πππsSqπ(s,π(s))vπ(s)ππsS:vπ(s)vπ(s)

Sutton&Barto、強化学習:紹介ブックの89ページを検索)

次のルールにより、すべての州でポリシーを改善できます。π

π(s)=argmaxaqπ(s,a)=argmaxasp(ss,a)[r(s,a,s)+γvπ(s)]

新しいポリシーはPitの条件を満たしているため、かそれ以上です。場合なく、より良い、などの良好となるよりは、すべてのため。定義から推測すると、次のようになります。 π π ' π V π 'S = V族πS S π 'ππππvπ(s)=vπ(s)sπ

vπs=最高aE[Rt+1+γvπSt+1|St=st=a]=最高aΣsps|sa[rsas+γvπs]

しかし、この等式はベルマン最適化方程式と同じであるため、はと等しくなければなりません。 V *vπv

上記のことから、ポリシーを改善し、以前と同じ価値関数を得た場合、新しいポリシーは最適なポリシーの1つでなければならないことは明らかです。詳細については、Sutton&Barto(2012)を参照してください。


1

正解です。現在値関数の推定値または現在のポリシーの推定値は、アルゴリズムの状態を完全に説明できます。それぞれが、もう一方の固有の次の選択を意味します。以下にリンクされた論文から、

「ポリシーの反復は、ます。」V+1=Vα+1=α

https://editorialexpress.com/jrust/research/siam_dp_paper.pdf

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.