1
マルコフ決定過程、収縮および価値反復
私はマルコフ決定過程(MDP)を検討しています、そして収縮論に関して私が見逃していることがあります。私はそれがどこかで愚かな間違いであると確信しています(おそらく計算上)が、とにかく、私はそれを理解することができません。ここに行きます。 次のように定義された2つの状態と2つのアクションを持つ単純なMDPを考えます。 $$ r(s、a)= \ begin {pmatrix} 1& 2 1 \\ 1& 1 \ end {pmatrix}、$$ $$ P(s、s '、1)= \ begin {pmatrix} 1& 2 0 \\ 1& A 0 \ end {pmatrix}、$$ $$ P(s、s '、2)= \ begin {pmatrix} 0.5& 2 0.5 \\ 0.5& A 0.5 \ end {pmatrix}、$$ $$ \ …