マルコフ決定過程、収縮および価値反復


4

私はマルコフ決定過程(MDP)を検討しています、そして収縮論に関して私が見逃していることがあります。私はそれがどこかで愚かな間違いであると確信しています(おそらく計算上)が、とにかく、私はそれを理解することができません。ここに行きます。

次のように定義された2つの状態と2つのアクションを持つ単純なMDPを考えます。

$$ r(s、a)= \ begin {pmatrix} 1& 2 1 \\ 1& 1 \ end {pmatrix}、$$

$$ P(s、s '、1)= \ begin {pmatrix} 1& 2 0 \\ 1& A 0 \ end {pmatrix}、$$

$$ P(s、s '、2)= \ begin {pmatrix} 0.5& 2 0.5 \\ 0.5& A 0.5 \ end {pmatrix}、$$

$$ \ beta \ in(0,1) $$

値関数について2つの推測から始めましょう。

$$ V_1(s)= \ begin {pmatrix} 100 \\ 0 \ end {pmatrix}、$$

そして

$$ V_2(s)= \ begin {pmatrix} 0 \\ 1 \ end {pmatrix} $$

Bellman演算子を使用してこれらの近似値関数を反復すると、次のようになります。

$$ T(V_1)= \ begin {pmatrix} \ max_a \ begin {ケース} 1 + 100 \ beta、\ qquad \ text {if} a = 1、\\                                                  1 + 50 \ beta、\ qquad \ text {if} a =2。\ end {ケース} \\                              \ max_a \ begin {ケース} 1 + 100 \ beta、\ qquad \ text {if} a = 1、\\                                                  1 + 50 \ beta、\ qquad \ text {if} a =2。\ end {ケース} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 100 \\ 1+ \ beta 100 \ end {pmatrix} $$

そして

$$ T(V_2)= \ begin {pmatrix} \ max_a \ begin {ケース} 1 + 0 \ beta、\ qquad \ text {if} a = 1、\\                                                  1 + 0.5 \ beta、\ qquad \ text {if} a = 2. \ end {ケース} \\                              \ max_a \ begin {ケース} 1 + 0 \ beta、\ qquad \ text {if} a = 1、\\                                                  1 + 0.5 \ beta、\ qquad \ text {if} a =2。\ end {ケース} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 0.5 \\ 1+ \ beta 0.5 \ end {pmatrix} $$

しかし$ 1 $に十分近い$ \ beta $では、たとえばマンハッタンの標準をとると、

$$ d(V_1(s)、V_2(s))\約101、$$

そして

$$ d(T(V_1(s))、T(V_2(s)))\ 199

私は$ T $が縮小写像だと思っていたので、これは私にとって奇妙に思えます。私はどこで失敗しましたか?私の計算に間違いはありますか?私は重要な仮説を適用するのを忘れていますか?それとも、収縮マッピングについて誤解していませんか。

回答:


2

値反復演算子は、 最高裁 規範。あなたの例はおそらくそれがマンハッタンの規範に関する収縮であるという文の反例を提供します。


ありがとうジェファーソン。私は人々が演算子があらゆる種類の規範($ L_2 $と$ L _ {\ infty} $を含む)を使った縮約であることを証明するのを見ました。演算子が縮約であることを証明するためにノルム等価が適用されると推測したに違いありませんが、おそらくそれは私が失敗したところです。明日それを見てみるつもりです。
Martin Van der Linden
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.