設定
次の設定を検討しています。
- 個別のアクション
- 離散状態
- 限定報酬
- 固定政策
- 無限の地平線
最適ポリシーは次のように定義される。
と最適値関数である:
V * = maxのπの Vのπ(S )、∀ S ∈ S
セットがあり得ます最大を達成するポリシーの。しかし、一つだけの最適値関数があります:
V * = Vのπ *
π∗∈ 引数最大πVπ(複数可)、∀ S ∈ S(1)
V∗= 最大πVπ(複数可)、∀ S ∈ S(2)
V∗= Vπ∗(3)
質問
すべてのs∈に対して(1)を同時に満たす少なくとも1つのが存在することを証明する方法π∗?S ∈ S
証明の概要
構築最適方程式我々はそれが式介し定義と同等であることをステップ2で証明する最適値関数の一時的な代用の定義として使用されるべきである。(2)。
V∗(s )= 最大∈ A[ R (s 、a )+ γ∑s′∈ ST(s,a,s′)V∗(s′)](4)
Eq。(4)およびEq。(2)を介して最適値関数を定義する等価性を導き出します。
(実際、式(2)から式(4)を構築したので十分であることが明らかであるため、証明で必要な方向だけが必要であることに注意してください。)
式(4)に独自の解決策があることを証明します。
ステップ2によって、ステップ3で得られた解が式(2)の解でもあることがわかります。したがって、これは最適値関数です。
最適値関数から、各状態に対して式(4)の最大化アクションを選択することにより、最適なポリシーを回復できます。
手順の詳細
1
以来、我々はV π *(S )≤ maxのA ∈ A Q π *(S 、)。そして、もしあれば〜のようにV π * ≠ maxのA ∈V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~、私たちは、最大化することで、より良い政策を選択することができますQ *(S、)=Q π *(S、)の上に。Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
手順1が続きます。
(<=)
すなわち、もし満足〜V(S )= maxのA ∈ A [ R (S 、)+ γV~、次いで〜V(S )= V *(S )= 最大πのVのπ(S )、∀ S ∈ S。V〜(s )= 最大∈ A[ R (s 、a )+ γ∑s′∈ ST(s 、a 、s′)V〜(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
定義最適ベルマン演算子として
私たちの目標は、証明することであるので、もし〜V=T〜V、その後、〜V=V*。Puterman[1]に従って、2つの結果を組み合わせてこれを示します。
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
a)の場合は、その後、〜V ≥ V *。V~≥TV~V~≥V∗
B)もし、その後、〜V ≤ V *。V~≤TV~V~≤V∗
証明:
a)
いずれかのために、
〜Vπ=(d1,d2,...)
ここでdは決定規則(特定の時間における動作プロファイル)であり、RのDは、即時から誘導された報酬のベクトル表現であり、D及びPのDは、から誘導される遷移行列であり、D。
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
誘導、任意ためにより、
〜V ≥ R D 1 + N - 1 Σ I = 1 γ I P I π R D I + 1 + γ N P N π 〜V Pのj個のπを表し、J〜ステップ遷移行列をπの下で。n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
以降
我々は
〜V - V π ≥ γ N P N πを〜V - ∞ Σ I = N γ I P I π R D I + 1 ⏟ → 0 としてのn → ∞
Vπ= Rd1+ ∑i = 1∞γ私P私πRdi + 1
V〜− Vπ≥ γnPnπV〜− ∑i = n∞γ私P私πRdi + 1→ n として0 → ∞
我々は持っているので、
。これはすべてのために保持しているためと
π、我々は結論付けている
〜V ≥ 最大πの V π = V *
B)
V〜≥ VππV〜≥ 最大πVπ= V∗
手順1から続きます。
3
オペレータベルマン最適の収縮のあるノルムを参照 [2]。L∞
証明:について
| T V 1(S )- T V 2(S )|s
| TV1(s )− TV2(s )|= ∣∣∣∣最大∈ A[ R (s 、a )+ γ∑s′∈ ST(s 、a 、s′)V1(s′)] − maxa′∈ A[ R (s 、a′)+ γ∑s′∈ ST(s 、a′、s′)V(s′)] ∣∣∣∣≤(∗ )∣∣∣∣最大∈ A[ γ∑s′∈ ST(s 、a 、s′)(V1(s′)− V2(s′))] ∣∣∣∣≤ γ∥ V1− V2∥∞
最大af(a )− 最大a′g(a′)≤ 最大a[ f(a )− g(a )]
T
参照資料
[1] Puterman、Martin L ..「Markov Decision Processes:Discrete Stochastic Dynamic Programming。」(2016)。
[2] A.ラザリック。http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf