私は最近、動的最適化の研究を始めました。ベルマン方程式の値関数が収縮マッピングの不動点であるという事実に頭を悩ますことはできません。私の理解はかなり単純です:問題が有限であれば、次のように言います: 可能な最大値を知っているかのように、最後からベルマン方程式を構築します事前にシーケンス。最後の期間から開始して、期間到達するまで、現在の期間ユーティリティ反映する最適な項を追加することにより、最大化を繰り返しますTU(CT)0(BのV)(X)(BのV)(X)=V(X)
。ここから、収縮マッピングがどのように機能するかを明確に見ることができます。しかし、無限のケースを理解するのはそれほど簡単ではありません:ベルマン演算子反復により、値関数が見つかるまでポリシー関数の「キャリブレーション」を実行することしか想定できません(つまり、私たちの横断性条件与えられた最大の可能なユーティリティ)。少なくとも、私は正しい方向に考えていますか、それともこの考えは別の方法で理解されるべきですか?前もって感謝します。(また、これは.stackexchangeに関する私の最初の質問です。私の質問の表示に問題がある場合は、教えてください)