多次元空間で関数の絶対最小(最大)を検索するための勾配降下ベースの手法はありますか?


11

特定の関数の極小値(最大値)を検出できる勾配降下アルゴリズムに精通しています。

関数がいくつかの極値を持っている絶対最小値(最大値)を見つけることができる勾配降下の変更はありますか?

絶対的な極値を見つけるために、局所的な極値を見つけることができるアルゴリズムを強化する一般的な手法はありますか?


FAQからリンクされた相互検証またはAI Q&A を確認することができます。
Kaveh

これは勾配降下の欠点の1つだと思います。局所的な極限状態に陥る可能性があります。シミュレーテッドアニーリングのような他の手法は、この影響を受けにくいかもしれませんが、それでも私が理解していることから保証することはできません。
ジョー

1
「多次元空間」がこれと何の関係があるのか​​わかりません。Rの関数でさえ、勾配検索で問題となる複数の局所的な極値を持つことができます。
スレシュヴェンカト

関数が連続であり、十分なポイントでサンプリングされた場合、勾配降下が特定のポイントから始まるグローバル最小値を見つけることを保証できるという線に沿った定理があると確信しています。つまり、パウエルのアルゴリズムに沿ったものです。文献は非常に膨大であるため、このような定理はおそらくどこかで公開されていますが、聞いたことはありません。また、サンプリングが増加するにつれて、十分なサンプリングの下で​​ローカル最適化がグローバル最適化に近づくことができることも証明しています。
-vzn

やや関連する関連項目コメントここに強くグローバルNNまたは数値法は、/ヒューリスティック型のアプローチがあると主張することはない「近似アルゴリズム」
vzn

回答:


17

制約のない最小化について話していると思います。特定の問題構造を検討している場合は、質問で指定する必要があります。そうでなければ、答えはノーです。

最初に神話を払拭すべきです。古典的な勾配降下法(最急降下法とも呼ばれます)では、局所的な最小化を見つけることさえ保証されていません。一次の臨界点、すなわち勾配が消える点を見つけると停止します。最小化される特定の機能と開始点に応じて、サドルポイントまたはグローバルマキシマイザーに到達する可能性があります。

インスタンスのために検討及び初期点X 0Y 0= 1 0 。最急降下方向である- F 1 0 = - 2 0 。正確なライン探索と方法の一つのステップがであなたを残します0 0 f(x,y)=x2y2(x0,y0):=(1,0)f(1,0)=(2,0)(0,0)グラデーションが消える場所。悲しいかな、それは点です。2次の最適条件を調べることで実現できます。しかし、関数がと想像してください。ここでは、0 0 まだサドルポイントですが、数値的に、二階の条件は、あなたを教えてくれないかもしれません。一般的に、あなたはヘッセと判断言う2 F X *Y *は固有値に等しい有する- 10 -f(x,y)=x21016y2(0,0)2f(x,y)。どう読むの?負の曲率または数値誤差ですか?どの程度+ 10 - 161016+1016

今のような機能を考える

f(x)={1if x0cos(x)if 0<x<π1if xπ.

x0=2

現在、事実上すべての勾配ベースの最適化手法は、設計上この問題を抱えています。あなたの質問は本当にグローバルな最適化に関するものです。繰り返しになりますが、答えはノーです。グローバルミニマイザーが確実に識別されるようにメソッドを変更する一般的なレシピはありません。自問してください:アルゴリズムが値を返し、それがグローバルミニマイザーであると言った場合、どのようにそれが真実であるかを確認しますか?

グローバル最適化にはメソッドのクラスがあります。ランダム化を導入するものもあります。いくつかはマルチスタート戦略を使用します。問題の構造を悪用するものもありますが、これらは特別な場合のためのものです。グローバル最適化に関する本を入手してください。あなたはそれを楽しむでしょう。


@Roman:どういたしまして。
ドミニク

3

あなたの質問に対する万能の答えはおそらくないでしょう。ただし、シミュレーテッドアニーリングアルゴリズム、またはマルコフ連鎖モンテカルロ法(MCMC)に依存する他のアプローチを検討することをお勧めします。これらは、勾配降下などのローカルメソッドと組み合わせることもできます。


1

「ニューラルネットワークのグローバルな最適化」に関する多くの参考文献があります。この手法は、シミュレーテッドアニーリングに似ています[他の回答を参照]。基本的なアイデアは、ランダムにまたは体系的にサンプリングされた多くの異なる重みの開始点から開始してネットワーク勾配降下を再開することです。勾配降下の各結果は、「サンプル」のようになります。より多くのサンプルが取られるほど、特にターゲット関数が連続的、微分可能などの意味で「適切に動作する」場合、サンプルの1つがグローバル最適である可能性が高くなります。

オンライン参照

[1] Hamm et alによるニューラルネットワークの重みのグローバル最適化

[2] Voglis / Lagarisをトレーニングするニューラルネットワークへのグローバル最適化アプローチ

[3] グローバル最適化ピンターによる人工ニューラルネットワークの調整

[4] 決定論的ハイブリッドアプローチ Beliakov を使用したニューラルネットワークのグローバル最適化

[5] ニューラルネットワークトレーニング Shang / Wahのグローバル最適化


1

一般に、多変量の非凸関数を最適化することは計算上困難です。硬度にはさまざまなフレーバーがあります(暗号、NPハード)。これを確認する1つの方法は、混合モデル(GuassianやHMMの混合など)を学習するのは難しいが、尤度を効率的に最大化することができれば簡単(*)になることです。HMMの学習の難しさに関する結果については、http://alex.smola.org/journalclub/AbeWar92.pdf http://link.springer.com/chapter/10.1007%2F3-540-45678-3_36 http://を参照して ください 。 www.math.ru.nl/~terwijn/publications/icgiFinal.pdf

(*)非縮退性と識別可能性の通常の条件を法として


0

私はドミニクに反対しなければなりません。それは一定の厳格な条件の下で非凸問題をアニールすると、グローバルな最小値に到達することが保証されていることを1980年代半ばにhajekによって示された。http://dx.doi.org/10.1287/moor.13.2.311


2
上記の硬さの結果に照らして、これらの条件は実際にかなり厳しいものでなければなりません!
アリーエ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.