他のすべてのポリシー以上のポリシーが常に少なくとも1つあるのはなぜですか?


13

強化学習:はじめに。 第2版​​、進行中。、リチャードS.サットンおよびアンドリューG.バート(c)2012、pp。67-68。

強化学習タスクを解決するということは、おおまかに言って、長期的に多くの報酬を達成するポリシーを見つけることを意味します。有限MDPの場合、次の方法で最適なポリシーを正確に定義できます。値関数は、ポリシーに対する部分的な順序付けを定義します。ポリシーポリシーに等しいか、より良くなるように定義されたその期待収益がより大きい場合またはそれに等しいすべての状態のため、。つまり、すべて、場合に限り、となります。他のすべてのポリシーと同等以上のポリシーが常に少なくとも1つあります。これは最適なポリシーです。πππππvπ(s)vπ(s)sS

他のすべてのポリシー以上のポリシーが常に少なくとも1つあるのはなぜですか?


非常に詳細な証明(Banachの不動点定理を使用)は、Putermanによる「Markov Decision Processes」の6.2章に記載されています。
トグス

回答:


3

引用された部分を過ぎて、同じパラグラフが実際にこのポリシーが何であるかを示しています。それはすべての州で最高の行動を取るものです。MDPでは、1つの州で実行するアクションは、他の州で実行するアクションの報酬に影響を与えないため、州ごとにポリシーを単純に最大化できます。


この答えは完全に間違っていませんか?州ごとにポリシーを最適化すると、最適なポリシーにつながると言えますか。私は状態の上に最適化した場合はSt、それが私をとりSt+1、その後に最適化St+1の最適値関数にリードVt+1が、ここで別のポリシーが存在するSt最適以下にリード線をSlと最適に値関数はV t + 1Slよりも高い。このような大まかな分析によってどのようにこれを除外できますか?Vt+1
MiloMinderbinder

@MiloMinderbinder での最適なポリシーStS t +を選択することである場合St+1ある場合、St+1の値は値よりも高くなりますSl
ドン・レバ

私の悪い。Typo修正:「この答えは完全に間違っていませんか?州ごとにポリシーを最適化すると、最適なポリシーにつながるとどのように言えますか?iが状態にわたって最適化した場合Stと、それは私を取るSt+1における最適化、次いで及びSt+1の最適値関数にリードVt+2St+2が、ここで別のポリシーが存在するStリードかかわらずは準最適Sl+1であるため、S t + 1の値関数St+1は、よりも高いですVl+1が、値関数はSt+2、このポリシーの方が、状態ごとに最適化することで見つかったポリシーよりも高くなります。これはどのようにあなたに無視されますか?」
MiloMinderbinder

の定義はV、将来のリターンも考慮すべきであるため、そもそもこれが起こるのを防ぐと思います。
Flying_Banana

質問は次のようになります:なぜが存在するのか?バナッハ固定小数点定理を回避することはできません:q
ファビアンヴェルナー

10

最適なポリシーの存在は明らかではありません。理由を確認するために、値関数はポリシーの領域全体で部分的な順序付けのみを提供することに注意してください。これの意味は:

ππvπsvπssS

これは部分的な順序に過ぎないため、2つのポリシー、 π 2は、比較することはできません。言い換えると、次のような状態空間のサブセット S 1および S 2があります。π1π2S1S2

vπsvπssS1

vπsvπssS2

この場合、1つのポリシーが他のポリシーより優れているとは言えません。しかし、制限された値関数を持つ有限MDPを扱っている場合、このようなシナリオは発生しません。最適なポリシーは複数ある場合もありますが、最適な値関数は1つだけです。

これを証明するには、バナッハの固定小数点定理を理解する必要があります。詳細な分析について、を参照してください


7

設定

次の設定を検討しています。

  • 個別のアクション
  • 離散状態
  • 限定報酬
  • 固定政策
  • 無限の地平線

最適ポリシーは次のように定義される。 最適値関数である: V * = maxのπの VのπS S S セットがあり得ます最大を達成するポリシーの。しかし、一つだけの最適値関数があります: V * = Vのπ *

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

質問

すべてs∈に対して(1)を同時に満たす少なくとも1つのが存在することを証明する方法πsS

証明の概要

  1. 構築最適方程式我々はそれが式介し定義と同等であることをステップ2で証明する最適値関数の一時的な代用の定義として使用されるべきである。(2)。

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. Eq。(4)およびEq。(2)を介して最適値関数を定義する等価性を導き出します。

    (実際、式(2)から式(4)を構築したので十分であることが明らかであるため、証明で必要な方向だけが必要であることに注意してください。)

  3. 式(4)に独自の解決策があることを証明します。

  4. ステップ2によって、ステップ3で得られた解が式(2)の解でもあることがわかります。したがって、これは最適値関数です。

  5. 最適値関数から、各状態に対して式(4)の最大化アクションを選択することにより、最適なポリシーを回復できます。

手順の詳細

1

以来、我々はV π *S maxのA A Q π *S 。そして、もしあればようにV π *maxのA V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~、私たちは、最大化することで、より良い政策を選択することができますQ *S=Q π *Sの上に。VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

手順1が続きます。

(<=)

すなわち、もし満足VS = maxのA A [ R S + γV、次いでVS = V *S = 最大πのVのπS S SVs)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

定義最適ベルマン演算子として 私たちの目標は、証明することであるので、もしV=TV、その後、V=V*Puterman[1]に従って、2つの結果を組み合わせてこれを示します。

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

a)の場合は、その後、VV *V~TV~V~V

B)もし、その後、VV *V~TV~V~V

証明:

a)

いずれかのためにVπ=(d1,d2,...) ここでdは決定規則(特定の時間における動作プロファイル)であり、RのDは、即時から誘導された報酬のベクトル表現であり、D及びPのDは、から誘導される遷移行列であり、D

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

誘導、任意ためによりVR D 1 + N - 1 Σ I = 1 γ I P I π R D I + 1 + γ N P N π V Pのj個のπを表し、J〜ステップ遷移行列をπの下で。n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV
Pπjjπ

以降 我々は V - V πγ N P N πをV - Σ I = N γ I P I π R D I + 10 としてのn

Vπ=Rd1+=1γPπRd+1
VVπγnPπnV=nγPπRd+10 なので n
我々は持っているので、。これはすべてのために保持しているためとπ、我々は結論付けている V最大πの V π = V * B)VVππ
V最大πVπ=V

手順1から続きます。

3

オペレータベルマン最適の収縮のあるノルムを参照 [2]。L

証明:について | T V 1S - T V 2S |s

|TV1sTV2s|=|最大aA[Rsa+γsSTsasV1s]最大aA[Rsa+γsSTsasVs]||最大aA[γsSTsasV1sV2s]|γV1V2
最大afa最大aga最大a[faga]

T

参照資料

[1] Puterman、Martin L ..「Markov Decision Processes:Discrete Stochastic Dynamic Programming。」(2016)。

[2] A.ラザリック。http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf


-1

a=πsasπvπs=最大aAqπsaas

他のすべてのポリシー以上のポリシーが常に少なくとも1つあります。

ππππ


3
これは質問にどのように答えますか?基本的に、引用で書かれたステートメントを繰り返します。
nbro
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.