非凸関数の勾配降下

9

非凸関数について、勾配降下が収束する（臨界点または局所/大域最小値のいずれかに）示される可能性がある場所について、私たちはどのような状況を知っていますか？

非凸関数のSGDについては、1種類の証明がここで確認されています。http：//www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf

— 大学院生
ソース

2

このペーパー：arxiv.org/pdf/1602.04915.pdfが役立つかもしれません。特に、「[関数]が2回連続微分可能で、厳密なサドルプロパティを満たす場合、ランダムな初期化と十分に小さい一定のステップサイズの勾配降下が、ローカルミニマイザーまたは負の無限大にほぼ確実に収束します。」

— David Kozak

ありがとう！あなたが引用した論文がこの最近の結果であるarxiv.org/abs/1709.01434よりも弱いという意味があるのでしょうか。

— gradstudent 2018

都合の良いことに、今週は、私のリストにすでに紙が載っています。消化したら、適切な回答を差し上げます。

— デビッドコザック

ありがとう！ディスカッションを楽しみにしています！：D非凸勾配降下法で収束を示すそのような証拠の「小さな」プロトタイプを知っているかどうかを知らせてください！

— gradstudent 2018

3

https://web.stanford.edu/~boyd/cvxbook/の付録B1を参照してください。

関数と制約は二次制約付き二次プログラムでは非凸である可能性がありますが、強い双対性が見られます（Slaterの制約修飾子と呼ばれる技術的条件が満たされていれば保証されます）

弱い意味での強い双対性は、最適化問題を解決できることを意味します。原問題と呼ばれる元の問題から、二重問題と呼ばれる別の問題を定式化できます。二重問題の解は、ある意味では元の問題の「最良の下限」である解を提供します

非凸である多くの最適化問題では、主解と双対解の間にギャップがあります。つまり、下限は真の最適値（負の無限大でさえ）をはるかに下回ることがあります。一部の特殊なケースでは、境界が厳しいです。これらの特別なケースは、私たちが強い双対性を持っているケースです。

アルゴリズムは、最適なポイントに到達するために使用されるテクニックです。最適なソリューションとそれを見つける能力は、問題のジオメトリ（双対性が到達しようとするもの）に依存します。大まかに言えば、分析は、最適化が適切に設定されている場合、最小に収束することを示しています。

一般に、勾配降下法は定常点に収束します。このポイントは、ローカル最小値/グローバル最小値/サドル最小値にすることができます。いくつかの非凸ケースのみで、収束するものを保証できます。

— シド
ソース

QCQPとは何ですか？強力な二元性があるとはどういう意味ですか？

— MachineEpsilon 2018

@シドこれが私が尋ねている勾配降下法の収束とどう関係しているのですか？

— gradstudent 2018

回答を編集しました。簡潔responeのための私の謝罪

— シド

3

この回答では、コメントで取り上げられた2つの興味深い関連性のある論文を探索します。その前に、問題を形式化し、いくつかの仮定と定義に光を当てるようにします。私はリー他による 2016年の論文から始めます。

以下に制限されている非凸関数を最小化しようとします。2階微分可能である必要があります。次の形式の勾配降下アルゴリズムを使用します。 $f: \mathbb{R}^d \to \mathbb{R}$

。 $\pmb{x}_{t+1} = \pmb{x}_t - \alpha\nabla f(\pmb{x}_t)$

さらに、次の要件があります。

$\| \nabla f(\pmb{x}_1)-\nabla f(\pmb{x}_2) \| \leq \ell \| \pmb{x}_1 - \pmb{x}_2 \|, \quad \text{for all } \pmb{x}_1, \pmb{x}_2$

つまり、関数は -Lipschitzである必要があります。英語では、これは私たちの勾配がドメイン内のどこでもあまり急激に変化することはできないという考えに変換されます。この仮定により、分岐するステップで終わることのないようにステップサイズを選択できることが保証されます。 $\ell$

かつ場合、点は厳密なサドルであると言われることを思い出してくださいおよび。ヘッセ行列のすべての固有値が同じ符号を持つ場合、ポイントは最小値（正の場合）または最大値（負の場合）です。固有値が0の場合、それは縮退していると言われ、厳密なサドルではありません。 $\pmb{x}$ $\nabla f(\pmb{x}) = 0$ $\lambda_{\min}\left(\nabla^2 f(\pmb{x})\right) < 0$ $\lambda_{\max}\left(\nabla^2 f(\pmb{x})\right) > 0$

この論文では、上記の仮定と、関数のすべての鞍点が厳密な鞍であるという仮定とともに、勾配降下法が最小値に収束することが保証されていることを示しています。

証明は非常に技術的ですが、直感はこれです：セットを定義します、ここでは鞍点です。私はこの表記がまったく好きではありません。彼らが試みているのは、が勾配マップの開始値のセットであるということですを送信します。より明確に言えば、最終的にサドルに収束するのはランダムな初期化のセットです。 $W^s(\pmb{x}^s) = \{\pmb{x} : \lim_k g^k(\pmb{x}) = \pmb{x}^s \}$ $\pmb{x}^s$ $W$ $g : \mathbb{R}^d \to \mathbb{R}^d$ $\pmb{x}_k$ $\pmb{x}^s$

彼らの議論は、安定多様体定理に依存しています。上記の仮定と一連の難解な計算を使用して、セットは測定値0でなければならない、つまり、鞍点に収束する点でランダムに初期化する確率はゼロであると結論付けます。ステップサイズが適切に小さい仮定で概説されているタイプの関数の勾配降下法は、最終的には臨界点に到達し、サドルに着陸することはないことが（ほぼ確実に）わかっているので、収束することがわかります。最小化。 $W^s$

Reddiらによる 2番目のより最近の論文。もう少し詳しく説明します。いくつかの違いがあります。最初に、彼らはもはや決定論的フレームワークでは機能せず、代わりに有限和でより実際的に関連する確率的近似フレームワークを選択します（確率的勾配降下法を考えてください）。主な違いは、ステップサイズには追加の注意が必要であり、勾配は確率変数になることです。さらに、すべてのサドルが厳密であるという仮定を緩和し、2次の静止点を探します。つまり、 $\|\nabla(f) \| \leq \epsilon, \quad \text{and}, \quad \lambda_{\min}\left(\nabla^2 f(\pmb{x})\right)\geq -\sqrt{\rho\epsilon}$

どこヘッセのためのリプシッツ定数です。（つまり、勾配が急激に変化しないという要件に加えて、ヘッセ行列にも同様の要件があります。基本的に、著者は1次導関数と2次導関数の両方で最小値に見える点を探しています。 $rho$

彼らがこれを達成する方法は、ほとんどの場合、確率的勾配降下法のバリアント（お気に入りを選択）を使用することです。しかし、ポイントに遭遇した場合は、適切に選択された 2次の方法を使用してサドルをエスケープします。彼らは、この2次情報を必要に応じて組み込むことにより、2次の静止点に収束することを示しています。 $\lambda_{\min}\left(\nabla^2 f(\pmb{x})\right)\leq 0$

技術的には、これは2次勾配法であり、興味のあるアルゴリズムの傘下にあってもなくてもかまいません。

これは非常に活発な研究分野であり、私は多くの重要な貢献を省略しました（例Geほか）。私もこのトピックに不慣れなので、この質問は私に見る機会を与えてくれました。興味がありましたら、引き続き議論させていただきます。

***適切に選択されたとは、2次の静止点に収束することが示されているものを意味します。彼らはNesterovとPolyakのキュービック正則化ニュートン法を使用しています。

— デビッドコザック
ソース

1

返信いただきありがとうございます！2つのコメント（a）私はReddiらだと思います。al。リー他より良い結果です。al。これは、漸近的な結果だけでなく、レートが制限された収束です。（b）これらのすべての論文よりも優れていると主張している（そしてそのように見える）この論文があります。opt

— ml.org/

同意し、それは数学的にはるかに簡単です。しかし、Leeの結果はそのユニークなアプローチにとって興味深いものです。高次元の非凸面を理解するためのより多くの方法を探し始めると、その方向からより多くの進歩があると思います。参考にさせていただきました、ありがとうございました。

— デビッドコザック

もう1つ質問を追加しましょう：このReddiを考えると、al。同じグループのより有名な紙arxiv.org/abs/1603.06160

— gradstudent

彼らがより最近の論文で使用する勾配降下法の変種はSVRGであるため、間違いなく関連性があります。コミュニティが参加するメリットを得るために、この質問を締めくくり、新たに始めるかもしれません。私はまだ要約を超えてあなたが推薦した論文をまだ読んでいませんが、それはリストにあり、さらなる疑問を引き起こすかもしれません。

— デビッドコザック

2

質問の「勾配降下法が臨界点に収束するのはいつですか」の部分を試して回答します。

論文「半代数的および飼いならされた問題に対する降下法の収束：近位アルゴリズム、前方後方分割、および正規化されたガウスザイデル法」

Attouch、Bolte、Svaiter、

は、目的関数がクルディカ・ロハシエヴィッチ（KL）不等式を満たす場合、GDおよび他の降下法が実際には最小化器に収束することを示しています。KLの状態は非常に一般的ですが、把握するのが難しいことに注意してください。KLを満たす関数は、たとえば半代数関数によって与えられます（これも非常に一般的ですが、単純な概念ではありません）。

これらの概念についていくつかの直感を与えるために、私は曖昧さを少なくし、技術的になりすぎないようにします。ような関数（いくつかの条件は省略していることに注意）が存在する場合、関数は臨界点でKL条件を満たす。全てについては、、その結果いくつかのために。直感は、対象の関数を再パラメーター化する関数が存在することです。 $f$ $\bar{x}$ $\phi$

| | \nabla (ϕ \circ f) (x) | | \geq 1

$|| \nabla (\phi \circ f)(x)|| \ge 1$

x

$x$

f (\bar{x}) < f (x) < r

$f(\bar{x}) < f(x) < r$

r

$r$

ϕ

$\phi$

f

$f$ 臨界点付近で鋭くなるように（導関数はゼロから離れている）。ある意味でこれは、関数が周囲で平坦になりすぎないことを意味し。

\bar{x}

$\bar{x}$

一方、準合併症は少し難しいです。それを研究しているフィールドは、飼いならされた幾何学としても知られています。飼いならされた名前は本質を非常によく捉えていると思います。このクラスに属する関数は、任意に「ワイルド」にすることはできません。

— セル
ソース

ありがとう！これ見てみよう！この状態に関する直感を教えてください。

— gradstudent

直感的に回答を更新しました。それが役に立てば幸い。

— -xel