最適化において非凸性が問題になるのはなぜですか?


20

一般に非凸最適化について何かを読み始めたとき、私は非常に驚きました、そして、私はこのような声明を見ました:

重要な多くの実用的な問題は非凸であり、ほとんどの非凸の問題は、妥当な時間内に正確に解決するのが不可能ではないにしても困難です。(ソース

または

一般に、極小値を見つけるのはNP困難であり、多くのアルゴリズムは点でスタックする可能性があります。(ソース

私は毎日、非凸最適化のようなものをやっています-すなわち、分子幾何学の緩和。私はそれを、トリッキーで遅く、行き詰まりやすいものとは決して考えませんでした。このコンテキストでは、明らかに多次元の非凸面(> 1000自由度)があります。FIREなどの最急降下および動的消光から派生した主に1次の手法を使用します。これは数百ステップで局所的な最小値(DOFの数未満)に収束します。確率的ノイズを追加すると、それは地獄のように堅牢でなければならないことを期待しています。(グローバル最適化は別の話です)

これらの最適化手法を停滞させるか、ゆっくりと収束させるために、ポテンシャルエネルギーサーフェスがどのように見えるかを想像することはできません。例えば、非常に病理学的なPES(ただし、非凸性によるものではない)は、このらせんですが、それほど大きな問題ではありません。病理学的な非凸PESの実例を挙げていただけますか?

それで、私は上記の引用と議論したくありません。むしろ、私はここで何かを見逃していると感じています。おそらくコンテキスト。


4
ここでのキーワードは「一般」です。特に、基本的に「すべてのaddle点」である非常に高い次元で、任意の厄介な関数を構築できます。一方、非凸関数の特定のクラスは、特に適切なグローバリゼーション戦略を使用する場合、非常にうまく動作できます。
クリスチャンクラソン16年

2
最適な制御理論とエンジニアリング/操作研究アプリケーションは、正確性/堅牢性にかなり重点を置いていると思いますが、どこかで「十分に良い」ことで十分だと思います。パフォーマンスの制限(収束を保証する必要があるため、ロボットの軌道が時間内に計算される)、または正確さの制限(問題のパラメーターを少し変更しても、まったく異なる結果が得られない)があります。そのため、いくつかの最適なポイントを取得するだけでは不十分です。また、それらに所定のプロパティを持たせることも必要です。
キリル

回答:


23

argminf(x)

  1. 候補解:決定変数の特定の選択とそれに対応する目標値、AND F X xf(x)
  2. 最適性の証明:選択がグローバルに最適であること、つまりがすべての選択に対して成り立つことの数学的な証明。 F X F X Xxf(x)f(x)x

が凸の場合、両方の成分が容易に得られます。勾配降下法は、勾配が消える候補解を見つけます。最適性の証明は、MATH101で教示されている単純な事実から得られますが凸で、その勾配がで消失する場合、はグローバルなソリューションです。X F X = 0 、F F X X fxf(x)=0ffxx

とき非凸で、候補解決策はまだ見つけるのは簡単かもしれないが、最適の証明は極めて困難になります。たとえば、勾配降下を実行して、ポイントを見つけることができます。ただし、が非凸の場合、条件が必要ですが、グローバル最適性にはもはや十分ではありません。実際、それは局所的な最適性にとっても十分ではありません。つまり、がその勾配情報だけに基づいて局所的な最小値であることを保証することさえできません。1つのアプローチは、を満たすすべての点を列挙することです。これは、1次元または2次元だけでも手ごわい作業になる可能性があります。ff(x)=0ff(x)=0xf(x)=0

ほとんどの問題を解決することは不可能であると数学者が言うとき、彼らは本当に(局所的でさえ)最適性の証明を構築することは不可能であると言ってます。しかし、現実の世界では、「十分な」ソリューションの計算にのみ関心があることが多く、これはさまざまな方法で見つけることができます。多くの非常に非凸の問題について、私たちの直観は、「十分な」解決策は、たとえそれを完全に証明することができなくても、実際にグローバルに最適であることを教えてくれます!


グローバル最適化とローカル最適化はまったく別の問題です。しかし、残りは理にかなっています。「xがその勾配情報だけに基づいて局所的最小値であることを保証することさえできない」ということをもっと言うことができますか?
プロコップハパラ

ブラックボックスとして関数およびがあると仮定します(つまり、評価のみが可能ですが、そのフォームは表示されません)。点は両方の勾配を消滅させます。つまり、およびですが、点は局所的な最小値にすぎません。実際、この時点では2番目の導関数もゼロであるため、2つのシナリオは最初の2つの導関数だけと同じです。f(x)=x3g(x)=x4x=0f(x)=0g(x)=0g
リチャードチャン

ああ、OK、私は常に慣性=>は、アルゴリズムが点に収束する傾向がないと自動的に仮定します。しかし、確かに、1ポイントの勾配だけでなく、前のステップからの追加情報(慣性)を使用します。x=0g(x)=x3
プロコップハパラ

私はあなたの主張を理解しています。そしておそらくそれが、厳密な数学的意味で非凸最適化が難しいと考えられている理由です。しかし、それでも私は、ヒューリスティック(アルゴリズムの自然な部分として想定している)が悲惨に失敗する実際のアプリケーションにもっと興味があります。
プロコップハパラ

準凸面はどうですか?このロジックにより、((私の理解があるquasiconvexない問題が?。凸の問題として最適化するために、簡単のようになり、)十分であることは事実後者ISN」(凸問題はまだ簡単です)。f(x)=0
アメリオバスケス-レイナ

6

扱いにくい低次元の問題の例は次のとおりです。

ここに画像の説明を入力してください

ローカルミニマムに到達した場合、グローバルミニマムに近いものをどのように確認できますか?結果がグローバルに最適である場合、結果が独自の最適なソリューションであるかどうかをどのように確認しますか?どこかで行き詰まらないように、すべての山と谷に対して堅牢なアルゴリズムを作成するにはどうすればよいですか?

このような例は、物事が困難になる可能性がある場所です。明らかに、すべての問題がこのようなわけではありませんが、いくつかの問題はそうです。さらに悪いことに、業界の設定では、コスト関数は計算に時間がかかり、上記のような問題のある表面を持つ可能性があります。

実際の問題の例

仕事で取り組むことができる例は、多くの発射条件でロバストになりうるミサイル誘導アルゴリズムの最適化です。クラスターを使用すると、1つの条件で約10分で必要なパフォーマンス測定値を取得できました。ここで、堅牢性を適切に判断するには、少なくとも条件のサンプルを判断する必要があります。したがって、6つの条件を実行して、このコスト関数の評価に1時間かかるとします。

非線形ミサイルダイナミクス、大気ダイナミクス、離散時間プロセスなどにより、ガイダンスアルゴリズムの変更に対する非常に非線形な反応が生じ、最適化を解決するのが難しくなります。このコスト関数が非凸であるという事実は、大きな問題を評価するのに時間がかかるという事実になります。このような例は、与えられた時間内に可能な限り最高のものを得るために努力する場所です。


1
OK、これは別の問題だと思います...グローバル最適化の問題、これは明らかに困難であり、ほとんどの状況で解決できません。しかし、非凸最適化に関して人々が言及しているのは、NPが局所的な最小値を見つけるのが難しく、多くのアルゴリズムがaddle点で立ち往生する可能性があるということです。
プロコップハパラ

1
@ProkopHapala 重要な実際の問題の多くは引用に言及していました。特にOPがいかに単純かについて話していたので、重要な多くの実用的な問題は非凸であり、ほとんどの非凸の問題は妥当な時間正確に解決することは不可能ではないにしても難しいです彼らは、研究において非凸面の問題に取り組むことができました。私にとって正確に解決することは、グローバルに最適なソリューション(またはそれに近いもの)を目指して努力しています。そこで、これらのコメントに関連する現実世界の課題の絵を描きたかったのです。
spektr

わかります。厳密に言えば、あなたは正しいですが、それでも私が意図したことを扱っていないと思います...おそらく私はそれをより良く定式化すべきでした。
プロコップハパラ

5

問題は、あなたがリンクした投稿で説明されているin点の問題です。リンクされた記事の 1つの要約から:

ただし、一般に、高次元に複雑なcomplicated点構造が存在するため、このようなアルゴリズムが局所的な最小値に収束することを保証することは困難です。多くの関数には、1次および2次導関数が局所的な最適点でそれらを区別できないように、addle点が縮退しています。この論文では、これらの点を回避するために高次の導関数を使用します。3次の局所最適に収束することが保証された最初の効率的なアルゴリズムを設計します(既存の手法は最大2次)。また、これをさらに拡張して4次の局所最適を見つけることはNP困難であることを示します。

基本的に、1次、2次、3次導関数を見たときに、極小値と区別できないサドルポイントがある関数を使用できます。高次のオプティマイザーを使用することでこれを解決できますが、4次の極小値を特定することはNP困難であることを示しています。

x2y+y2

多くのヒューリスティックを使用してこのようなポイントを回避することができます。これは多くの(ほとんどの?)実世界の例で機能する可能性があります、常に機能することは証明できません。リンクし
ブログ投稿では、多項式時間でそのようなサドルポイントをエスケープできる条件についても説明しています。


x2y+y2

2
あなたはそれを他の方法で見なければなりません。確率的勾配降下が失敗することを知っているのではなく、成功することを知らないのです。おもちゃの問題の場合、これは実際には発生しそうにありませんが、より高次元の問題では発生する可能性があります。私の賭けは、あなたの化学の問題のために、これは決して起こらないだろうが、私はそれを証明するのが難しいでしょう。
LKlevin
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.