いくつかの最適化問題がタイムステップと同等であることはよく知られていますか?


19

y0βRyu

12yy02+β2u2
Ay=u.
y,y0,uRnARn×n

ラグランジアンを形成し、静止点を探し、制御を削除すると、1次条件 によってPremultiplying第一方程式および第二に、我々は、正規方程式を書くことができる これらを微分方程式の後方オイラー近似の単一ステップとして解釈することができます u

ATλ=y0yAy=1βλ
AAT
(I+βAAT)λ=βAy0(I+βATA)y=y0
λb=AATλ+Ay0,λ(0)=0yb=ATAy,y(0)=y0
pseudotimestep βます。

私の質問:この接続はよく知られていますか?タイムステッピングまたは最適化の標準処理で議論されていますか?(私には、それらの間にある種の直感的な接続を提供するようです。)

アイデアは十分に知られているほど単純に思えますが、文献を検索したり、人々と話したりすることは、これについて議論する良い情報源を私に与えてくれませんでした。私が見つけた最も近いものは、O。ScherzerとJ. Weichertによる論文(J. Math Imaging Vision 12(2000)pp。43-63)です。参照を提供するか、接続を詳細に調べます。

理想的には、接続を述べるだけでなく、いくつかの結果も調査する参照を探しています(たとえば、安価なフォワードオイラーステップで最適化問題を事前調整することを想像できます)。


1
大まかに言えば(おそらく既にご存知のように)、疑似時間ステッピングアプローチは、代数方程式(説明したKKTシステムなど)を解くためのよく知られた方法であり、ODEのセットの定常状態を見つけるように問題をキャストします時間変数は実際には擬似時間です。ただし、KKT条件の特定のインスタンスを単一の後方オイラーステップに関連付ける特定の接続を認識していません。
ジェフオックスベリー14

余談ですが、1つ必要な条件のいずれかを使用して計算することができるため、2つのODEのいずれかを解くだけで済みます(例:から。λyλ
クリスチャンクラソン14

回答:


17

Jed Brownが述べたように、非線形最適化における勾配降下と動的システムの時間ステップとの関係は、ある程度の周波数で再発見されます(2つの外見上異なるフィールドをリンクするため、数学的な心と非常に満足のいく接続であるため、理解できることです)。ただし、特に説明するコンテキストでは、有用な接続になることはほとんどありません。

逆問題では、人々は、の範囲内にない、(不適切な)演算子方程式を解くことに興味があります。(最適な制御問題は、および 1つのインスタンスとして見ることができます。)いくつかの正則化戦略(TikhonovやLandweberなど)は、単一の擬似時間として解釈できます。特定のクラスのステップ。その考えは、正則化パラメーターの解釈をステップ長として使用して、パラメーターのいくつかの(適応的、事後)選択ルール(逆問題の基本的な問題)を取得し、場合によっては複数の擬似時間ステップを作成することです真の非正規化ソリューションにアプローチする(同様にY δ F F = A - 1つの Y δ = Y 0F(u)=yδyδFF=A1yδ=y0数値の継続)。これは連続正則化と呼ばれることもあり、通常はレベルセットメソッドのコンテキストで説明されています。たとえば、ノイバウアーのシュルツァーのカルテンバッハーの6.1章:非線形不良問題の反復正則化法(de Gruyter、2008)を参照してください。

このアイデアが繰り返し登場する2番目のコンテキストは、非線形最適化です。勾配降下ステップを見ると、 これを動的システムの前方オイラーステップとして解釈できます Jed Brownが指摘したように、疑似時間ステップが十分に小さい場合、一見すると、この方法が収束するという驚くべきことではありません。興味深いのは、動的システムを見て、いわゆる勾配流の連続解の特性を自問するときです。minxf(x)

xk+1=xkγkf(xk),
x˙(t)=f(x(t)),x(0)=x0.
γkx(t)勾配降下とは関係なく、また、それが標準オイラーよりも適切な時間ステッピング(したがって最適化)メソッドにつながらないかどうか。私の頭の上のいくつかの例:
  1. 勾配流が存在する自然な関数空間はありますか?その場合、勾配ステップは同じ空間から取得する必要があります(つまり、離散化は適合している必要があります)。これにより、たとえば、異なる内積に関する勾配のリース表現(ソボレフ勾配と呼ばれることもあります)が計算され、実際には、はるかに速く収束する事前条件付き反復が行われます。

  2. たぶん、ベクトル空間にない属している必要がありますが、マニホールド(例えば、対称正定値行列)に、または勾配の流れは、特定の規範節約すべきである。この場合、構造を保持する時間ステップスキームを適用しようとすることができます(たとえば、適切なリーグループまたは幾何学的積分器に関するプルバックを含む)。xx

  3. 場合微分可能ではなく、凸起因ステップサイズの制限のために非常に遅くなることが劣勾配降下法に前進オイラーステップ相当します。一方、暗黙のオイラーステップは、そのような制限が適用されない(したがって、たとえば画像処理で非常に一般的になった)基点法に対応します。f

  4. 同様に、このような方法は外挿ステップによって大幅に加速できます。これらの動機付けの1つの方法は、勾配の方向が「振動」するため、標準の1次法は最小化子に近い多くの小さなステップを作成する必要があることに注意することです(共役勾配が最急降下よりも優れている理由の標準的な図を考えてください)。これを改善するには、1次の動的システムではなく、減衰した2次システムを解くことにより、反復を「減衰」できます 適切に選択された。適切な離散化により、これは次の形式の反復(Polyakのヘビーボール法)に つながります。

    a1x¨(t)+a2x˙(t)=f(x(t))
    a1,a2
    xk+1=xkγkf(xk)+αk(xkxk1)
    (応じて使用))。基点法についても同様の考え方があります。たとえば、Dirk LorenzとThomas Pockによる論文http://arxiv.org/pdf/1403.3522.pdfを参照してください。γk,αka1,a2

(これを私の知識に追加する必要があります。これらの場合のほとんどでは、動的システムとしての解釈はアルゴリズムの導出または収束証明に厳密に必要ではありません。「暗黙的vs明示的」またはリー微分実際には、動的システムや勾配降下法よりも基本的です。それでも、問題を見るために別の視点を持つことは決して痛いことはありません。)


編集:私はちょうど2番目のコンテキストから優れた例を見つけました。そこでは、ODE解釈がNesterovの超勾配法の特性を推測し、改善を提案するために使用されています:http : //arxiv.org/pdf/1503.01243.pdf (これもまた著者が明らかにポリアックのアルゴリズムに気付かないうちに上記のポイント4を本質的に再発見するという点で、Jed Brownのポイントの例。

編集2:そして、あなたがこれをどこまで取ることができるかの目安として、http://arxiv.org/pdf/1509.03616v1.pdfの 5ページを参照してください


2番目の段落が私が尋ねようとしていた質問に最も直接的に答えているので、この答えを受け入れていますが、Jed Brownの答えも気に入りました。
アンドリューT.バーカー14

13

ここで書き留めた正確な定式化は見ていませんが、一時的なシステムの統合への接続を「再発見」し、代数的に1つの形式に等しいアルゴリズムを書き下ろすという話を見続けています。既存の勾配降下法またはニュートンのような方法の別の方法で、他の人を引用することはできません。結論は基本的に「十分に小さいステップを踏む限り、メソッドは最終的に局所的な最小値に収束する」という結論なので、あまり有用ではないと思います。さて、2014年はフィリップウルフの論文の45周年を記念して、これを原則的な方法で行う方法を示しました。また、疑似過渡継続とLevenberg-Marquardtのような関連する方法からq-quadraticまたはq-superlinear収束を得るための優れた理論があります。

600以上の論文を持つ数学者から代数方程式(つまり、古典的な疑似過渡継続)を解くためのニュートンのような定式化を使用したこの再発見のインスタンスが必要な場合AGラムによる動的システム法」[1]。

一時的なシステムを考慮することによって得られた直感が、より高速またはより信頼性の高い実用的なアルゴリズムにつながった場合、私はその主題に関する非常に引用された記事を見ると思います。Nocedal and Wrightが13000件以上の引用を持っているのに、Rammの本は約80件(主に自己引用)を持っているのは謎ではないと思います。

[1] Ramm教授に、彼のDSMは代数的に数十年にわたって数え切れないほどのエンジニアリングパッケージに含まれていたものと同等であると告げないようにアドバイスできます。#gradstudentmemories


3
ジェド、今あなたが彼にそう言うのを見るのはもっと面白いかもしれません!
ビル・バルト

0

ODEメソッドが最適化に貢献できる場合、これを示すための本当に簡単な問題例はありますか?
ストローマン: または合理的な仕事をするODEソルバーがあります Christian Clasonが提案 する、Rosenbrock関数を2dまたは10dで表しますか?それがばかげている場合、誰かがより良いストローマンを持っていますか? (「最先端のオプティマイザーとの競合」ではなく、「合理的な」ことに注意してください。ステップサイズ/許容誤差を小さくする必要があると思います。
x˙=f(x)
x¨=βx˙αf(x)  
f

実際には、「大きすぎる」ステップは「小さすぎる」よりもはるかに問題が多く、振動は乱雑です。
私は、制御理論が役立つと単純に考えていたでしょう。数値レシピp。915 では、ODEの
PI適応ステップサイズ制御について説明していますが、実際に使用されるかどうかはわかりません。


新しい質問を回答として投稿しているようです...
ポール

@ポール、これはまったく理にかなっていますか?もしそうなら、新しい質問のタイトルを提案してもらえますか?
デニス

私は混乱しています...私は間違っているかもしれませんが、あなたの応答は本当にOPの質問ではないようです。あなたが伝えようとしているメッセージは正確に何であり、元の質問とどのように関連していますか?
ポール

@ポール、すみません、わかりません。私が理解している質問は、特定の最適化問題とタイムステッピング別名ODEソルバーとの関係を求めています。Christian Clasonは、勾配降下法と特定のODEソルバー(forward-Euler)との直接的な関係を指摘しています。ODEソルバーが最小f()に向かって移動することを示す簡単なテスト関数f()と何ですか?
デニス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.