(ノートを編集:私はその長さに驚いた後にこれを再編成しました。)
座標降下に関する文献は、追跡するのが少し難しい場合があります。これにはいくつかの理由があります。
lp
命名は標準ではありません。「最急降下」という用語でさえ標準ではありません。「巡回座標降下」、「座標降下」、「ガウスザイデル」、「ガウスサウスウェル」という用語のいずれかをグーグルで検索することに成功する場合があります。使用法には一貫性がありません。
nn
O( ln(1 / ϵ ))lp
制約。強い凸面がなければ、少し注意を払わなければなりません。制約については何も言わなかったので、一般に、下限は達成できないかもしれません。制約のトピックについて簡単に言うと、標準的なアプローチ(降下法を使用)は、各反復で制約セットに投影して実行可能性を維持するか、バリアを使用して制約を目的関数にロールバックすることです。前者の場合、座標降下でどのように動作するのかわかりません。後者の場合、座標降下で正常に機能し、これらの障壁は強く凸になる可能性があります。
より具体的には、投影法ではなく、座標メソッドに多くの人々が単純に座標更新に実行可能性を維持させます。これは、例えば、Frank-Wolfeアルゴリズムとその変形(つまり、SDPの解決に使用)に当てはまります。
また、SVMのSMOアルゴリズムは、2つの変数を一度に更新し、実行中に実行可能性制約を維持する座標降下法と見なすことができることも簡単に説明します。この方法では変数の選択はヒューリスティックであるため、保証は実際には単なる循環保証です。この接続が標準的な文献に表示されるかどうかはわかりません。Andrew NgのコースノートからSMOメソッドについて学び、それらが非常にきれいであることがわかりました。
n
O( ln(1 / ϵ ))
座標降下に関する最近の結果がいくつかあります。arXivで見たことがあります。また、luo&tsengにはいくつかの新しい論文があります。しかし、これは主なものです。
∑mi = 1g(⟨ A私、λ ⟩ )g(a私)m1λexp(1 / ϵ2)O(1 / ϵ)
正確な更新の問題。また、閉じた形式の単一座標の更新がない場合もよくあります。または、正確な解決策が単に存在しない場合があります。しかし、幸いなことに、正確なソリューションと基本的に同じ保証が得られる行検索メソッドがたくさんあります。この資料は、上記のBertsekasまたはNocedal&Wrightの書籍など、標準の非線形プログラミングテキストに記載されています。
あなたの2番目の段落に対して:これらがうまく機能するとき。
第一に、座標降下のための勾配に関する上記の分析の多くは機能します。それでは、なぜ座標降下を常に使用しないのでしょうか?答えは、勾配降下法が適用される多くの問題に対して、優れた収束性が証明できるニュートン法も使用できるということです。座標降下でニュートンの優位性を得る方法がわかりません。また、ニュートン法の高コストは、Quasinewtonの更新で軽減できます(たとえば、LBFGSを参照)。
l0kkkkf