ポリシーと値の反復アルゴリズムの収束条件

8

ポリシーと値の反復アルゴリズムを使用して、マルコフ決定プロセスの問題を解決できます。収束に必要な条件を理解するのに苦労しています。最適なポリシーが2つのステップ（つまり、反復iとi + 1）の間に変化しない場合、アルゴリズムが収束したと結論付けることができますか？そうでない場合、いつですか？

algorithms markov-process convergence

— ELEC
ソース

3

あなたの質問に答えるために、最初にいくつかの重要な（不）等式を書きましょう。

ベルマン最適化方程式：

$\begin{aligned} v_{*} (s) & = max_{a} E [R_{t + 1} + γ v_{*} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] \\ = max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{*} (s^{'})] \end{aligned}$ $\begin{align} v_∗(s) &= \max_{a} \mathbb{E}[R_{t+1} + \gamma v_* (S_{t+1}) \mid S_t =s, A_t =a] \\ &= \max_{a} \sum_{s'}p(s'\mid s, a) \biggl[r(s, a, s') + \gamma v_∗(s')\biggl] \end{align}$
ここで、 $v_*(.)$ は最適値関数です。

政策改善定理（ピット）：

ましょうと決定論的方針の任意のペアことなど、そのすべてについて、次にポリシーかそれ以上である必要があります。つまり、すべての状態から期待されるリターン以上を取得する必要があります。s。 $\pi$ $\pi'$ $s \in S$ $q_\pi(s, \pi'(s)) \geq v_\pi(s)$ $\pi'$ $\pi$ $s \in S: v_{\pi'} (s) \geq v_\pi(s)$

（Sutton＆Barto、強化学習：紹介ブックの89ページを検索）

次のルールにより、すべての州でポリシーを改善できます。 $\pi$

\begin{aligned} π^{'} (s) & = \arg max_{a} q_{π} (s, a) \\ = \arg max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{π} (s^{'})] \end{aligned}

$\begin{align} \pi'(s) &= \arg \max_{a}q_π(s, a)\\ &= \arg \max_{a} \sum_{s'}p(s' \mid s, a)\biggl[r(s, a, s') + \gamma v_\pi(s')\biggl] \end{align}$

新しいポリシーはPitの条件を満たしているため、かそれ以上です。場合なく、より良い、などの良好となるよりは、すべてのため。定義から推測すると、次のようになります。 $\pi'$ $\pi$ $\pi'$ $\pi$ $v_{\pi'}(s)=v_{\pi}(s)$ $s$ $\pi'$

\begin{aligned} v_{π^{』}} （ s ） & = \underset{a}{最高} E [R_{t + 1} + γ v_{π^{』}} （ S_{t + 1} ） | S_{t} = s 、 あ_{t} = a] \\ = \underset{a}{最高} \underset{s^{』}}{Σ} p （ s^{』} | s 、 a ） [r （ s 、 a 、 s^{』} ） + γ v_{π^{』}} （ s^{』} ）] \end{aligned}

$\begin{align} v_{\pi'}(s)&=\max_{a} \mathbb{E}\biggl[R_{t+1} + \gamma v_{ \pi'}(S_{t+1}) \mid S_t =s, A_t =a \biggl]\\ &= \max_{a}\sum_{s'}p(s' \mid s, a) \biggl[r(s, a, s') + \gamma v_{π'}(s') \biggl] \end{align}$

しかし、この等式はベルマン最適化方程式と同じであるため、はと等しくなければなりません。 $v_{\pi'}$ $v_*$

上記のことから、ポリシーを改善し、以前と同じ価値関数を得た場合、新しいポリシーは最適なポリシーの1つでなければならないことは明らかです。詳細については、Sutton＆Barto（2012）を参照してください。

— ヤン・ベイナー
ソース

1

正解です。現在値関数の推定値または現在のポリシーの推定値は、アルゴリズムの状態を完全に説明できます。それぞれが、もう一方の固有の次の選択を意味します。以下にリンクされた論文から、

「ポリシーの反復は、ます。」 $V_{n+1} = V_n, α_{n+1} = α_n$

https://editorialexpress.com/jrust/research/siam_dp_paper.pdf

— eric_kernfeld
ソース