他のすべてのポリシー以上のポリシーが常に少なくとも1つあるのはなぜですか？

13

強化学習：はじめに。第2版、進行中。、リチャードS.サットンおよびアンドリューG.バート（c）2012、pp。67-68。

強化学習タスクを解決するということは、おおまかに言って、長期的に多くの報酬を達成するポリシーを見つけることを意味します。有限MDPの場合、次の方法で最適なポリシーを正確に定義できます。値関数は、ポリシーに対する部分的な順序付けを定義します。ポリシーポリシーに等しいか、より良くなるように定義されたその期待収益がより大きい場合またはそれに等しいすべての状態のため、。つまり、すべて、場合に限り、となります。他のすべてのポリシーと同等以上のポリシーが常に少なくとも1つあります。これは最適なポリシーです。 $\pi$ $\pi'$ $\pi'$ $\pi \geq \pi'$ $v_\pi(s) \geq v_{\pi'}(s)$ $s \in \mathcal{S}$

markov-process reinforcement-learning

— sh1ng
ソース

非常に詳細な証明（Banachの不動点定理を使用）は、Putermanによる「Markov Decision Processes」の6.2章に記載されています。

— トグス

3

引用された部分を過ぎて、同じパラグラフが実際にこのポリシーが何であるかを示しています。それはすべての州で最高の行動を取るものです。MDPでは、1つの州で実行するアクションは、他の州で実行するアクションの報酬に影響を与えないため、州ごとにポリシーを単純に最大化できます。

— ドン・レバ
ソース

この答えは完全に間違っていませんか？州ごとにポリシーを最適化すると、最適なポリシーにつながると言えますか。私は状態の上に最適化した場合は

S_{t}

$S_t$ 、それが私をとり

S_{t + 1}

$S_{t+1}$ 、その後に最適化

S_{t + 1}

$S_{t+1}$ の最適値関数にリード

V_{t + 1}

$V_{t+1}$ が、ここで別のポリシーが存在する

S_{t}

$S_t$ 最適以下にリード線を

S_{l}

$S_l$ と最適に

値関数は

S_{l}

$S_l$ よりも高い。このような大まかな分析によってどのようにこれを除外できますか？

V_{t + 1}

$V_{t+1}$

— MiloMinderbinder

@MiloMinderbinder

での最適なポリシー

S_{t}

$S_t$ が

を選択することである場合

S_{t + 1}

$S_{t+1}$ ある場合、

S_{t + 1}

$S_{t+1}$ の値は

値よりも高くなります

S_{l}

$S_l$ 。

— ドン・レバ

私の悪い。Typo修正：「この答えは完全に間違っていませんか？州ごとにポリシーを最適化すると、最適なポリシーにつながるとどのように言えますか？iが状態にわたって最適化した場合

S_{t}

$S_t$ と、それは私を取る

S_{t + 1}

$S_{t+1}$ における最適化、次いで及び

S_{t + 1}

$S_{t+1}$ の最適値関数にリード

V_{t + 2}

$V_{t+2}$ の

S_{t + 2}

$S_{t+2}$ が、ここで別のポリシーが存在する

S_{t}

$S_t$ リードかかわらずは

準最適

S_{l + 1}

$S_{l+1}$ であるため、

値関数

S_{t + 1}

$S_{t+1}$ は、

よりも高いです

V_{l + 1}

$V_{l+1}$ が、

値関数は

S_{t + 2}

$S_{t+2}$ 、このポリシーの方が、状態ごとに最適化することで見つかったポリシーよりも高くなります。これはどのようにあなたに無視されますか？」

— MiloMinderbinder

の定義は

V

$V$ 、将来のリターンも考慮すべきであるため、そもそもこれが起こるのを防ぐと思います。

— Flying_Banana

質問は次のようになります：なぜ

が存在するのか？バナッハ固定小数点定理を回避することはできません:

q_{*}

$q_*$

— ファビアンヴェルナー

10

最適なポリシーの存在は明らかではありません。理由を確認するために、値関数はポリシーの領域全体で部分的な順序付けのみを提供することに注意してください。これの意味は：

π^{'} \geq π ⟺ v_{π^{'}} （ s ） \geq v_{π} （ s ） 、 \forall s \in S

$\pi' \geq \pi \iff v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S$

これは部分的な順序に過ぎないため、2つのポリシー、と、比較することはできません。言い換えると、次のような状態空間のサブセットおよびがあります。 $\pi_1$ $\pi_2$ $S_1$ $S_2$

v_{π^{'}} （ s ） \geq v_{π} （ s ） 、 \forall s \in S_{1}

$v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S_1$

v_{π} （ s ） \geq v_{π^{'}} （ s ） 、 \forall s \in S_{2}

$v_{\pi}(s) \geq v_{\pi'}(s),\forall s \in S_2$

この場合、1つのポリシーが他のポリシーより優れているとは言えません。しかし、制限された値関数を持つ有限MDPを扱っている場合、このようなシナリオは発生しません。最適なポリシーは複数ある場合もありますが、最適な値関数は1つだけです。

これを証明するには、バナッハの固定小数点定理を理解する必要があります。詳細な分析については、を参照してください。

— カルシック・チアガラジャン
ソース

7

$\newcommand{\mc}{\mathcal} \newcommand{\mb}{\mathbb}$

設定

次の設定を検討しています。

個別のアクション
離散状態
限定報酬
固定政策
無限の地平線

最適ポリシーは次のように定義される。と最適値関数である：セットがあり得ます最大を達成するポリシーの。しかし、一つだけの最適値関数があります：

\begin{matrix} (1) & π^{*} \in \arg max_{π} V^{π} (s), \forall s \in S \end{matrix}

$\pi^\ast \in \arg \max_\pi V^\pi(s), \forall s \in \mc{S} \tag{1}$

\begin{matrix} (2) & V^{*} = max_{π} V^{π} (s), \forall s \in S \end{matrix}

$V^\ast = \max_\pi V^\pi (s), \forall s \in \mc S \tag{2}$

\begin{matrix} (3) & V^{*} = V^{π^{*}} \end{matrix}

$V^\ast = V^{\pi^\ast} \tag{3}$

質問

すべて（1）を同時に満たす少なくとも1つのが存在することを証明する方法 $\pi^\ast$ ？ $s \in \mc{S}$

証明の概要

構築最適方程式我々はそれが式介し定義と同等であることをステップ2で証明する最適値関数の一時的な代用の定義として使用されるべきである。（2）。
$\begin{matrix} (4) & V^{*} (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V^{*} (s^{'})] \end{matrix}$ $V^\ast(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V^\ast(s^\prime)] \tag{4}$
Eq。（4）およびEq。（2）を介して最適値関数を定義する等価性を導き出します。

（実際、式（2）から式（4）を構築したので十分であることが明らかであるため、証明で必要な方向だけが必要であることに注意してください。）
式（4）に独自の解決策があることを証明します。
ステップ2によって、ステップ3で得られた解が式（2）の解でもあることがわかります。したがって、これは最適値関数です。
最適値関数から、各状態に対して式（4）の最大化アクションを選択することにより、最適なポリシーを回復できます。

手順の詳細

1

以来、我々は。そして、もしあればように $V^\ast(s) = V^{\pi^\ast}(s) = \mb E_a [Q^{\pi^\ast}(s, a)]$ $V^{\pi^\ast}(s) \le \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ $\tilde{s}$ 、私たちは、最大化することで、より良い政策を選択することができますの上に。 $V^{\pi^\ast} \neq \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ $Q^{\ast} (s, a) = Q^{\pi^\ast} (s, a)$ $a$

2

（=>）

手順1が続きます。

（<=）

すなわち、もし満足 $\tilde V$ 、次いで。 $\tilde V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) \tilde V(s^\prime)]$ $\tilde V(s) = V^\ast(s) = \max_\pi V^\pi(s), \forall s \in \mc S$

定義最適ベルマン演算子として私たちの目標は、証明することであるので、もし、その後、。Puterman[1]に従って、2つの結果を組み合わせてこれを示します。

\begin{matrix} (5) & T V (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V (s^{'})] \end{matrix}

$\mc T V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V(s^\prime)] \tag{5}$

\tilde{V} = T \tilde{V}

$\tilde V = \mc T \tilde V$

\tilde{V} = V^{*}

$\tilde V = V^\ast$

a）の場合は、その後、。 $\tilde V \ge \mc T \tilde V$ $\tilde V \ge V^\ast$

B）もし、その後、。 $\tilde V \le \mc T \tilde V$ $\tilde V \le V^\ast$

証明：

a）

いずれかのために、 $\pi = (d_1, d_2, ...)$ ここで決定規則（特定の時間における動作プロファイル）であり、、即時から誘導された報酬のベクトル表現であり、及びから誘導される遷移行列であり、。

\begin{aligned} \tilde{V} & \geq T \tilde{V} = max_{d} [R_{d} + γ P_{d} \tilde{V}] \\ \geq R_{d_{1}} + γ P_{d_{1}} \tilde{V} \end{aligned}

$\begin{align} \tilde V &\ge \mc T \tilde V = \max_{d} [ R_d + \gamma \, P_d \tilde V] \\ &\ge R_{d_1} + \gamma \, P_{d_1} \tilde V \\ \end{align}$

d

$d$

R_{d}

$R_d$

d

$d$

P_{d}

$P_d$

d

$d$

誘導、任意ためにより、表し、〜ステップ遷移行列を下で。 $n$

\tilde{V} \geq R_{d_{1}} + \sum_{i = 1}^{n - 1} γ^{i} P_{π}^{i} R_{d_{i + 1}} + γ^{n} P_{π}^{n} \overset{〜}{V}

$\tilde V \ge R_{d_1} + \sum_{i=1}^{n-1} \gamma^i P_\pi^i R_{d_{i+1}} + \gamma^n P_\pi^n \tilde V$

P_{π}^{j}

$P_\pi^j$

j

$j$

π

$\pi$

以降我々は

V^{π} = R_{d_{1}} + \sum_{私 = 1}^{\infty} γ^{私} P_{π}^{私} R_{d_{私 + 1}}

$V^\pi = R_{d_1} + \sum_{i=1}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}$

\overset{〜}{V} - V^{π} \geq \underset{\to 0 なので n \to \infty}{\underset{⏟}{γ^{n} P_{π}^{n} \overset{〜}{V} - \sum_{私 = n}^{\infty} γ^{私} P_{π}^{私} R_{d_{私 + 1}}}}

$\tilde V - V^\pi \ge \underbrace{\gamma^n P_\pi^n \tilde V -\sum_{i=n}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}}_{\rightarrow 0 \ \text{as}\ n\rightarrow \infty}$ 我々は持っているので、

。これはすべてのために保持しているためと

、我々は結論付けている

B）

\tilde{V} \geq V^{π}

$\tilde V \ge V^\pi$

π

$\pi$

\overset{〜}{V} \geq \underset{π}{最大} V^{π} = V^{*}

$\tilde V \ge \max_\pi V^\pi = V^\ast$

手順1から続きます。

3

オペレータベルマン最適の収縮のあるノルムを参照 [2]。 $L_\infty$

証明：について $s$

\begin{aligned} | T V_{1} （ s ） - T V_{2} （ s ） | & = | \underset{a \in A}{最大} [R （ s 、 a ） + γ \sum_{s^{'} \in S} T （ s 、 a 、 s^{'} ） V_{1} （ s^{'} ）] - \underset{a^{'} \in A}{最大} [R （ s 、 a^{'} ） + γ \sum_{s^{'} \in S} T （ s 、 a^{'} 、 s^{'} ） V （ s^{'} ）] | \\ \overset{（ * ）}{\leq} | \underset{a \in A}{最大} [γ \sum_{s^{'} \in S} T （ s 、 a 、 s^{'} ） （ V_{1} （ s^{'} ） - V_{2} （ s^{'} ） ）] | \\ \leq γ ‖ V_{1} - V_{2} ‖_{\infty} \end{aligned}

$\begin{align} \left\vert \mc T V_1(s) - \mc TV_2(s) \right\vert &= \left\vert \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V_1(s^\prime)] -\max_{a^\prime \in \mc A} [ R(s, a^\prime) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a^\prime, s^\prime) V(s^\prime)]\right\vert \\ &\overset{(*)}{\le} \left\vert \max_{a \in \mc A} [\gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) (V_1(s^\prime) - V_2(s^\prime))] \right\vert \\ &\le \gamma \Vert V_1 - V_2 \Vert_\infty \end{align}$

\underset{a}{最大} f （ a ） - \underset{a^{'}}{最大} g （ a^{'} ） \leq \underset{a}{最大} [f （ a ） - g （ a ）]

$\max_a f(a) - \max_{a^\prime} g(a^\prime) \le \max_a [f(a) - g(a)]$

$\mc T$

参照資料

[1] Puterman、Martin L ..「Markov Decision Processes：Discrete Stochastic Dynamic Programming。」（2016）。

[2] A.ラザリック。http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

— ラブアイリス
ソース

-1

$a=\pi(s)$ $a$ $s$ $\pi$ $v_\pi(s)=\max_{a \in A} q_\pi (s,a)$ $a$ $s$

他のすべてのポリシー以上のポリシーが常に少なくとも1つあります。

$\pi_*$ $\pi$ $\pi$ $\pi_*$

— アゴールド
ソース

3

これは質問にどのように答えますか？基本的に、引用で書かれたステートメントを繰り返します。

— nbro