座標降下法の理論的研究

14

最適化のためのヒューリスティックに関するいくつかの教材を準備しており、座標降下法を検討しています。ここでの設定は、最適化する多変量関数です。は、任意の単一変数に制限されるプロパティがあり、最適化は簡単です。したがって、座標降下は、選択した座標を除くすべての座標を修正し、その座標に沿って最小化することにより進行します。最終的には、改善が止まり、終了します。 $f$ $f$

私の質問は次のとおりです。収束率、およびメソッドをうまく機能させる特性などについて説明する座標降下法の理論的研究はありますか？明らかに、私は完全に一般的な答えを期待していませんが、発見的手法がうまくいく場合を明らかにする答えが役立つでしょう。 $f$

余談： -meansに使用される交互最適化手法は、座標降下の例として見ることができ、Frank-Wolfeアルゴリズムは関連しているように見えます（ただし、フレームワークの直接的な例ではありません） $k$

— スレシュ・ベンカット
ソース

少なくともKen Clakrsonの論文kenclarkson.org/sga/p.pdfで説明されているように、Frank-Wolfeは非常によく似ています。唯一の違いは、FWでは、降下するのに最適な座標を選択するようです。matusが言及しているのと同じスパース特性を持ちます。

— サショニコロフ14

2

Sebastien Bubeckには、さまざまな方法の凸最適化と反復の複雑さに関する最近のモノグラフがあります。見るのに便利な場所かもしれません。blogs.princeton.edu/imabandit/2014/05/16/...

— チャンドラChekuri

24

（ノートを編集：私はその長さに驚いた後にこれを再編成しました。）

座標降下に関する文献は、追跡するのが少し難しい場合があります。これにはいくつかの理由があります。

$l^p$
命名は標準ではありません。「最急降下」という用語でさえ標準ではありません。「巡回座標降下」、「座標降下」、「ガウスザイデル」、「ガウスサウスウェル」という用語のいずれかをグーグルで検索することに成功する場合があります。使用法には一貫性がありません。
$n$ $n$

$\mathcal O(\ln (1/\epsilon))$ $l^p$

制約。強い凸面がなければ、少し注意を払わなければなりません。制約については何も言わなかったので、一般に、下限は達成できないかもしれません。制約のトピックについて簡単に言うと、標準的なアプローチ（降下法を使用）は、各反復で制約セットに投影して実行可能性を維持するか、バリアを使用して制約を目的関数にロールバックすることです。前者の場合、座標降下でどのように動作するのかわかりません。後者の場合、座標降下で正常に機能し、これらの障壁は強く凸になる可能性があります。

より具体的には、投影法ではなく、座標メソッドに多くの人々が単純に座標更新に実行可能性を維持させます。これは、例えば、Frank-Wolfeアルゴリズムとその変形（つまり、SDPの解決に使用）に当てはまります。

また、SVMのSMOアルゴリズムは、2つの変数を一度に更新し、実行中に実行可能性制約を維持する座標降下法と見なすことができることも簡単に説明します。この方法では変数の選択はヒューリスティックであるため、保証は実際には単なる循環保証です。この接続が標準的な文献に表示されるかどうかはわかりません。Andrew NgのコースノートからSMOメソッドについて学び、それらが非常にきれいであることがわかりました。

$n$

$\mathcal O(\ln(1/\epsilon))$

座標降下に関する最近の結果がいくつかあります。arXivで見たことがあります。また、luo＆tsengにはいくつかの新しい論文があります。しかし、これは主なものです。

$\sum_{i=1}^m g(\langle a_i, \lambda\rangle)$ $g$ $(a_i)_1^m$ $\lambda$ $\exp(1/\epsilon^2)$ $\mathcal O(1/\epsilon)$

正確な更新の問題。また、閉じた形式の単一座標の更新がない場合もよくあります。または、正確な解決策が単に存在しない場合があります。しかし、幸いなことに、正確なソリューションと基本的に同じ保証が得られる行検索メソッドがたくさんあります。この資料は、上記のBertsekasまたはNocedal＆Wrightの書籍など、標準の非線形プログラミングテキストに記載されています。

あなたの2番目の段落に対して：これらがうまく機能するとき。 第一に、座標降下のための勾配に関する上記の分析の多くは機能します。それでは、なぜ座標降下を常に使用しないのでしょうか？答えは、勾配降下法が適用される多くの問題に対して、優れた収束性が証明できるニュートン法も使用できるということです。座標降下でニュートンの優位性を得る方法がわかりません。また、ニュートン法の高コストは、Quasinewtonの更新で軽減できます（たとえば、LBFGSを参照）。

$l^0$ $k$ $k$ $k$ $k$ $f$

— マトゥス
ソース

2

ワオ。それは本当に包括的な答えです。ありがとう！

— スレシュヴェンカト

2

こちらをご覧になることをお勧めします。この分野でいくつかの作業を行いました。

http://arxiv.org/abs/1107.2848

乾杯

ピーター

— ピーター
ソース

2

arXiv（http://arxiv.org/abs/1201.1214）に関する論文を掲載しました。これは、最適化問題の「統計的アルゴリズム」の一般的な下限を証明します。各「問題」は、さまざまなプロパティ。

座標降下（および他に考えられるほとんどすべて）は、フレームワークの統計アルゴリズムと見なすことができます。したがって、このホワイトペーパーでは、興味のある結果が得られることを願っています。

— レフ・レイジン
ソース

涼しい。それを調べます。

— スレシュヴェンカト

2

最適化では、「収束率」は通常、漸近的な動作を意味することに注意してください。つまり、レートは最適解の近傍にのみ適用されます。その意味で、Luo＆Tsengは、「凸微分可能最小化のための座標降下法の収束について」という論文で、いくつかの非強凸目的関数の線形収束率を証明しました。

非漸近的収束率、別名「反復複雑度」は、一般に、最小化アルゴリズムの反復回数を制限するのに役立ちます。強く凸の目的関数の場合、巡回座標降下法の反復の複雑さは、Luo＆Tsengの誤差限界と実行可能な降下法の収束解析で既に示されています：グローバル誤差限界が使用される場合の一般的なアプローチ。強く凸でない問題については、凸最適化のための実行可能な降下法の反復複雑度にいくつかの新しい結果があります。。具体的には、SVMの二重形式やGauss-Seidel法などの問題に関する巡回座標降下法の反復の複雑さを示しました。さらに、この結果には、勾配降下法や友人など、他の実行可能な降下法も含まれています。

— 王様
ソース