経済 markov-chain

マルコフ決定過程、収縮および価値反復

私はマルコフ決定過程（MDP）を検討しています、そして収縮論に関して私が見逃していることがあります。私はそれがどこかで愚かな間違いであると確信しています（おそらく計算上）が、とにかく、私はそれを理解することができません。ここに行きます。次のように定義された2つの状態と2つのアクションを持つ単純なMDPを考えます。 $$ r（s、a）= \ begin {pmatrix} 1＆amp; 2 1 \\ 1＆amp; 1 \ end {pmatrix}、$$ $$ P（s、s '、1）= \ begin {pmatrix} 1＆amp; 2 0 \\ 1＆amp; A 0 \ end {pmatrix}、$$ $$ P（s、s '、2）= \ begin {pmatrix} 0.5＆amp; 2 0.5 \\ 0.5＆amp; A 0.5 \ end {pmatrix}、$$ $$ \ …

4 decision-theory academic-graduate optimization markov-chain bellman-equations

行列表記で有限状態マルコフ過程の条件付き期待値を書く方法

注：この質問は、次の2つの質問で検討した計量経済学的手法に関連しています。確率的成長時系列の乗法分解-固有関数/固有ベクトルの解決ハンセンで提案されたメジャーの変更の例（2012）質問：XtXtX_tが遷移確率行列Pと与えられる実現値を持つnnnマルコフ連鎖であると仮定しますPP\mathbb Pnnn次元座標ベクトルで。が、多変量正規分布ランダムベクトルのiidシーケンスであると仮定します。どのようにフォームの方程式表すであろう E [ EXPを（D ' のX T + X ' のT FのWのT + 1）、E （X T +{Wt+1}{Wt+1}\{W_{t+1} \} 行列 Mの固有ベクトル問題として？問題のプリミティブに関して Mを表現するにはどうすればよいですか？E[exp(D′Xt+X′tFWt+1)e(Xt+1)∣Xt=x]=exp(η)e(x)E[exp⁡(D′Xt+Xt′FWt+1)e(Xt+1)∣Xt=x]=exp⁡(η)e(x) E[\exp(D'X_t + X_t' F W_{t+1}) e(X_{t+1}) \mid X_t = x] = \exp(\eta) e(x) MM\mathbb MMM\mathbb M

3 econometrics time-series eigenvalue markov-chain linear-algebra

タグ付けされた質問 「markov-chain」

タグ付けされた質問「markov-chain」