私はマルコフ決定過程(MDP)を検討しています、そして収縮論に関して私が見逃していることがあります。私はそれがどこかで愚かな間違いであると確信しています(おそらく計算上)が、とにかく、私はそれを理解することができません。ここに行きます。
次のように定義された2つの状態と2つのアクションを持つ単純なMDPを考えます。
$$ r(s、a)= \ begin {pmatrix} 1& 2 1 \\ 1& 1 \ end {pmatrix}、$$
$$ P(s、s '、1)= \ begin {pmatrix} 1& 2 0 \\ 1& A 0 \ end {pmatrix}、$$
$$ P(s、s '、2)= \ begin {pmatrix} 0.5& 2 0.5 \\ 0.5& A 0.5 \ end {pmatrix}、$$
$$ \ beta \ in(0,1) $$
値関数について2つの推測から始めましょう。
$$ V_1(s)= \ begin {pmatrix} 100 \\ 0 \ end {pmatrix}、$$
そして
$$ V_2(s)= \ begin {pmatrix} 0 \\ 1 \ end {pmatrix} $$
Bellman演算子を使用してこれらの近似値関数を反復すると、次のようになります。
$$ T(V_1)= \ begin {pmatrix} \ max_a \ begin {ケース} 1 + 100 \ beta、\ qquad \ text {if} a = 1、\\ 1 + 50 \ beta、\ qquad \ text {if} a =2。\ end {ケース} \\ \ max_a \ begin {ケース} 1 + 100 \ beta、\ qquad \ text {if} a = 1、\\ 1 + 50 \ beta、\ qquad \ text {if} a =2。\ end {ケース} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 100 \\ 1+ \ beta 100 \ end {pmatrix} $$
そして
$$ T(V_2)= \ begin {pmatrix} \ max_a \ begin {ケース} 1 + 0 \ beta、\ qquad \ text {if} a = 1、\\ 1 + 0.5 \ beta、\ qquad \ text {if} a = 2. \ end {ケース} \\ \ max_a \ begin {ケース} 1 + 0 \ beta、\ qquad \ text {if} a = 1、\\ 1 + 0.5 \ beta、\ qquad \ text {if} a =2。\ end {ケース} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 0.5 \\ 1+ \ beta 0.5 \ end {pmatrix} $$
しかし$ 1 $に十分近い$ \ beta $では、たとえばマンハッタンの標準をとると、
$$ d(V_1(s)、V_2(s))\約101、$$
そして
$$ d(T(V_1(s))、T(V_2(s)))\ 199
私は$ T $が縮小写像だと思っていたので、これは私にとって奇妙に思えます。私はどこで失敗しましたか?私の計算に間違いはありますか?私は重要な仮説を適用するのを忘れていますか?それとも、収縮マッピングについて誤解していませんか。