タグ付けされた質問 「bellman-equations」

1
マルコフ決定過程、収縮および価値反復
私はマルコフ決定過程(MDP)を検討しています、そして収縮論に関して私が見逃していることがあります。私はそれがどこかで愚かな間違いであると確信しています(おそらく計算上)が、とにかく、私はそれを理解することができません。ここに行きます。 次のように定義された2つの状態と2つのアクションを持つ単純なMDPを考えます。 $$ r(s、a)= \ begin {pmatrix} 1& 2 1 \\ 1& 1 \ end {pmatrix}、$$ $$ P(s、s '、1)= \ begin {pmatrix} 1& 2 0 \\ 1& A 0 \ end {pmatrix}、$$ $$ P(s、s '、2)= \ begin {pmatrix} 0.5& 2 0.5 \\ 0.5& A 0.5 \ end {pmatrix}、$$ $$ \ …

1
ベルマン方程式の解は固定小数点です
私は最近、動的最適化の研究を始めました。ベルマン方程式の値関数が収縮マッピングの不動点であるという事実に頭を悩ますことはできません。私の理解はかなり単純です:問題が有限であれば、次のように言います: 可能な最大値を知っているかのように、最後からベルマン方程式を構築します事前にシーケンス。最後の期間から開始して、期間到達するまで、現在の期間ユーティリティ反映する最適な項を追加することにより、最大化を繰り返しますTU(CT)0(BのV)(X)(BのV)(X)=V(X)∑t = 0Tβtu (ct)∑t=0Tβtu(ct)\sum_{t=0}^T \beta^tu(c_t)TTTu (ct)u(ct)u(c_t)000。ここから、収縮マッピングがどのように機能するかを明確に見ることができます。しかし、無限のケースを理解するのはそれほど簡単ではありません:ベルマン演算子反復により、値関数が見つかるまでポリシー関数の「キャリブレーション」を実行することしか想定できません(つまり、私たちの横断性条件与えられた最大の可能なユーティリティ)。少なくとも、私は正しい方向に考えていますか、それともこの考えは別の方法で理解されるべきですか?前もって感謝します。(また、これは.stackexchangeに関する私の最初の質問です。私の質問の表示に問題がある場合は、教えてください)(B v )(x )(Bv)(x)(Bv)(x)(B v )(x )= v (x )(Bv)(x)=v(x)(Bv)(x)=v(x)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.