以下の微分方程式検討
xは状態であり、U制御変数。溶液は次式で与えられる
X (T )= X 0 + ∫ T 0 F (X (複数可)、U (S ))D S 。
ここでx
x˙(t)=f(x(t),u(t))
xux(t)=x0+∫t0f(x(s),u(s))ds.
x0:=x(0)は与えられた初期状態です。
次のプログラムを検討してください
s.t. V(x0):=maxu∫∞0e−ρtF(x(t),u(t))dtx˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V(⋅)F(⋅)ρV(x)=maxu[F(x,u)+V′(x)f(x,u)],∀t∈[0,∞).
のHJBを解いたとしましょう。最適な制御は、与えられ
状態と制御最適な軌道を取得します。V
u∗=argmaxu[F(x,u)+V′(x)f(x,u)].
{(x∗(t),u∗(t)):t∈[0,∞)}
ウィキ記事は述べています
...しかし、状態空間全体にわたって解かれた場合、HJB方程式は最適な条件に必要かつ十分な条件です。
Bertsekas(2005)Dynamic Programming and Optimal Control、Vol 1、3rd ed。、Proposition 3.2.1では、Vの解法Vは最適なコストツーゴー関数であり、関連するu∗が最適であると述べています。しかし、彼はそれを十分性定理として明示的に宣言しています。
実際、HJBを解決し、関連する状態と制御の軌道を回復した場合、追加の最適化条件を気にする必要がないことを確認したいだけです。
解決
私は試みます
HJB方程式自体により、最大原理から必要な条件を導き出すことができたと思います。
ハミルトニアンを定義する
H(x,u,V′(x)):=F(x,u)+V′(x)f(x,u)
その後、我々は
ρV(x)=maxuH(x,u,V′(x))
これは
ρV(x)=H(x,u∗,V′(x)).
任意の関数q:[0,∞)→Rをq(0)= \ lim_ {t \ to \ infty} q(t)= 0で定義しますq(0)=limt→∞q(t)=0。\ begin {align} x = x ^ * + \ varepsilon q \ end {align}を修正
x=x∗+εq
ここで、はパラメーターです。得られる最大化ハミルトニアンに用語を接続
ρ V (X * + ε Q )= H (X * + ε Q 、U *、V '(X * + ε Q ))。ε∈R
ρV(x∗+εq)=H(x∗+εq,u∗,V′(x∗+εq)).
では、最適な解が得られます。したがって、を微分して、1次条件
ε=0ε
ρV′q=Hxq+HV′V′′q.
ここで、随伴変数を定義します
λ=V′(x).
経時微分
λ˙=V′′x˙.
であることに注意してください
HV′=f(x,u)=x˙.
すべてをプラグインに接続すると、
ρλ=Hx+λ˙.
それはほとんどそれです。HJBを解くことは、最適化のために実際に必要かつ十分です(ここでは省略)。誰かがウィキに追加する必要があります。そのような問題について考えている人々の時間を節約するかもしれません(私は多くのことを考慮しません)。
ただし、横断条件
はありません。
limt→∞e−ρtλ(t)=0
IIの試み
ペイオフ機能を定義する
J(u):=∫∞0e−ρtF(x,u)dt
なお
の定義によって。中立の用語をペイオフ機能に追加します
∫∞0e−ρtλ[f(x,u)−x˙]dt=0
x˙=f(x,u)J(u)=∫∞0e−ρt[F(x,u)+λf(x,u)]dt−∫∞0e−ρtλx˙dt=∫∞0e−ρtH(x,u,λ)−∫∞0e−ρtλx˙dt
正しい用語の一部とrhsの統合により、
∫∞0e−ρtλx˙dt=[e−ρtλ(t)x(t)]∞0−∫∞0e−ρtx(λ˙−ρλ)dt
その用語を再置換
J(u)=∫∞0e−ρt[H(x,u,λ)+x(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)x(t)+λ(0)x(0)
定義
xu=x∗+εq=u∗+εp
与える
J(ε)=∫∞0e−ρt[H(x∗+εq,u∗+εp,λ)+(x∗+εq)(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)[x∗(t)+εq(t)]+λ(0)x(0)
最大 FOCJε=0
Jε=∫∞0e−ρt[Hxq+Hup+q(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)q(t)=0
以来、およびとらわれないれる我々が持っている必要があり
qp
HuHxlimt→∞e−ρtλ(t)=0=ρλ−λ˙=0