あなたが言及する最初の2つのアルゴリズム(Nelder-MeadとSimulated Annealing)は、信頼性とコストの両方が低い、より優れた代替手段があるため、一般的に最適化サークルではほとんど廃止されていると考えられます。遺伝的アルゴリズムは広範囲をカバーしており、これらのいくつかは合理的です。
しかし、より広いクラスの派生物のない最適化(DFO)アルゴリズムには、これらの「クラシック」よりもはるかに優れたものが多くあります。では、これらの新しいアプローチのいくつかは、ディープラーニングに適しているでしょうか?
最新技術を比較する比較的最近の論文は次のとおりです。
Rios、LM、&Sahinidis、NV(2013)派生物のない最適化:アルゴリズムのレビューとソフトウェア実装の比較。Journal of Global Optimization。
これは、最近のテクニックに関する多くの興味深い洞察を持つ素晴らしい論文です。たとえば、結果は、最適なローカルオプティマイザーはすべて、さまざまな形式の逐次2次計画法(SQP)を使用した「モデルベース」であることを明確に示しています。
しかし、彼らの要約で述べたように、「問題の規模が大きくなると、これらすべてのソルバーの優れた解を得る能力が低下することがわかりました。」数値の概念を示すために、すべての問題について、ソルバーには2500回の関数評価の予算が与えられ、問題のサイズは最適化するために最大300個のパラメーターでした。O [10]パラメーターを超えると、これらのオプティマイザーは非常に少数しか実行されず、最適なものでさえ、問題のサイズが大きくなるにつれてパフォーマンスの顕著な低下を示しました。
したがって、非常に高次元の問題の場合、DFOアルゴリズムは微分ベースのアルゴリズムと競合しません。ある程度の見通しを与えるために、PDE(偏微分方程式)ベースの最適化は、非常に高次元の問題を持つ別の領域です(たとえば、大きな3D有限要素グリッドの各セルのいくつかのパラメーター)。この領域では、「随伴方法」は最もよく使用される方法の1つです。これは、フォワードモデルコードの自動微分に基づく勾配降下オプティマイザーでもあります。
高次元のDFOオプティマイザーに最も近いのは、おそらくデータを複雑なPDEシミュレーション(例:気象モデル)に取り込むために使用されるEnsemble Kalman Filterです。興味深いことに、これは本質的にSQPアプローチですが、ベイジアン-ガウスの解釈(2次モデルは正定、つまりthe点なし)です。しかし、これらのアプリケーションのパラメーターや観測値の数は、ディープラーニングで見られるものに匹敵するとは思いません。
サイドノート(ローカルミニマム):ディープラーニングについて少し読んだところでは、コンセンサスはローカルミニマムではなくサドルポイントであり、高次元のNNパラメーター空間で最も問題になると思います。
たとえば、Nature の最近のレビューでは、「最近の理論的および経験的な結果は、局所的な最小値は一般に深刻な問題ではないことを強く示唆しています。代わりに、勾配が0表面はほとんどの次元で上にカーブし、残りの部分では下にカーブします。」
関連する懸念は、ローカル最適化とグローバル最適化に関するものです(たとえば、この質問はコメントで指摘されています)。ディープラーニングは行いませんが、私の経験では、過剰適合は間違いなく有効な懸念事項です。私の意見では、グローバル最適化手法は、「自然な」データに強く依存しない工学設計問題に最も適しています。データ同化の問題では、現在のグローバルミニマムは新しいデータを追加すると簡単に変更される可能性があります(注意:私の経験は地球科学の問題に集中しています。
興味深い視点はおそらく
O. Bousquet&L. Bottou(2008)大規模学習のトレードオフ。NIPS。
これは、実際には近似最適化が望ましい理由と時期に関する半理論的議論を提供します。
終わりのメモ(メタ最適化):勾配ベースの手法は、トレーニングネットワークでは支配的であると思われますが、関連するメタ最適化タスクではDFOの役割がある可能性があります。
1つの例は、ハイパーパラメーター調整です。(興味深いことに、Rios&Sahinidisの成功したモデルベースのDFOオプティマイザーは、一連の実験設計/ 応答曲面の問題を本質的に解決していると見ることができます。)
別の例としては、レイヤーのセットアップ(例:数、タイプ、シーケンス、ノード/レイヤー)に関するアーキテクチャの設計があります。この離散的最適化のコンテキストでは、遺伝的スタイルのアルゴリズムがより適切かもしれません。ここで、これらの要因(たとえば、完全に接続された層、畳み込み層など)によって接続が暗黙的に決定される場合を考えていることに注意してください。つまり、接続は明示的にメタ最適化されて。(接続強度はトレーニング中に分類されます。たとえば、正規化やReLUのアクティブ化によってスパース性を高めることができます。ただし、これらの選択はメタ最適化できます。)O[N2]notL1