質問に対するこのトップアンサーに動機付けられた:最適化において、凸性は準凸性よりもなぜ重要なのですか?、私は今、なぜ凸問題が最適化しやすい(または少なくとも準凸問題より簡単である)かを理解したいと思っています。
凸最適化の最も効率的なアルゴリズムにはどのようなものがありますか?それらは準凸問題で効果的に使用できないのはなぜですか?
質問に対するこのトップアンサーに動機付けられた:最適化において、凸性は準凸性よりもなぜ重要なのですか?、私は今、なぜ凸問題が最適化しやすい(または少なくとも準凸問題より簡単である)かを理解したいと思っています。
凸最適化の最も効率的なアルゴリズムにはどのようなものがありますか?それらは準凸問題で効果的に使用できないのはなぜですか?
回答:
大規模な最適化のための最新の最良の方法のほとんどは、目的関数を局所二次近似し、その近似の臨界点に向かって移動してから繰り返すことを含みます。これには、ニュートン法、L-BFGSなどが含まれます。
現在の点でのヘッセ行列が正定である場合、関数は局所的に最小値をもつ2次関数で近似できます。ヘッセ行列が不定の場合、どちらか
局所二次近似は目的関数の優れた局所近似であるため、サドルサーフェスです。次に、この2次近似を使用すると、間違った方向にある可能性が高い鞍点に向かって移動することが提案されます。
局所的な二次近似は、構造上最小値を強制されます。その場合、それは元の目的関数への不十分な近似である可能性があります。
(ヘッセ行列が負定である場合、同じ種類の問題が発生します。その場合、局所的に逆さまのボウルのように見えます)
したがって、これらの方法は、ヘッセ行列がどこでも正定である場合に最適に機能します。これは、滑らかな関数の凸性に相当します。
もちろん、すべての優れた最新の方法には、ヘッセ行列が不明確な領域を通過するときに収束を確実にするための保護手段があります。このような不明確な領域では、目的関数に関する完全な曲率情報を使用できないため、収束は一般にはるかに遅くなります。
非凸最適化問題に凸最適化アルゴリズムを適用することを試みることができます、そしてそれは極小値にさえ収束するかもしれませんが、関数に関する局所情報しか持っていないので、あなたが実際にそうであると結論することは決してできません。グローバルミニマムが見つかりました。凸最適化問題の最も重要な理論的特性は、ローカル最小値(実際には任意の静止点)もグローバル最小値であることです。
非凸問題の大域的最適化のアルゴリズムは、解が大域的最小であることを証明するために、ある種の大域的情報(例えば、関数のリプシッツ連続性)を持たなければなりません。
凸最適化アルゴリズムが準凸問題で失敗する理由に関する特定の質問に答えるために、凸最適化アルゴリズムが目的関数のグラフの「フラットスポット」で偶然に開始されたとします。グラデーションには、次に進むべき場所を示すローカル情報はありません。凸状の問題の場合は、ローカル(したがってグローバル)の最小点にすでに達していることを知って、単純に停止できます。