「サドルフリーニュートン」降下アルゴリズムが実際に使用されないのはなぜですか？

最近、Yann Dauphinらの論文を読みました。高次元の非凸最適化における点問題の特定と攻撃。ここでは、サドルフリーニュートンと呼ばれる興味深い降下アルゴリズムを導入します。バニラSGDとしての一次メソッドのような。

このペーパーは2014年にさかのぼるので、まったく新しいものではありませんが、「野生で」使用されているのを見たことはありません。この方法が使用されないのはなぜですか？ヘッセ計算は、実世界規模の問題/ネットワークに対して非常に禁止的すぎますか？このアルゴリズムのオープンソース実装さえありますか？おそらく、いくつかの主要なディープラーニングフレームワークで使用されるでしょうか？

2019年2月の更新：現在利用可能な実装があります：https : //github.com/dave-fernandes/SaddleFreeOptimizer）

optimization deep-learning gradient-descent

— ヤン・クッカカ
ソース

良い質問です。何も見つかりませんでした。ただし、疑似コードは非常に単純なので、自分で試してみることができます。その場合、著者の博士論文（103ページ、papyrus.bib.umontreal.ca / xmlui / bitstream / handle）のいずれかに有用な実装の詳細があります。/ 1866/13710 /…）

— galoosh33

この同じ論文への言及は、Uber Deep-Neuroevolutionブログの投稿で見つけました。リンク：eng.uber.com/deep-neuroevolution作成者に、GitHubを介してオンライン/共有で実装されているかどうかを尋ねることができます。

— カントレン

TensorFlowの実装は次のとおりです。github.com/ dave

— デイブF

私が推測しなければならなかった場合、私の仮定は、モデルに何百万ものパラメーターがある場合、ヘッシアンの計算+反転は非現実的であるということです。

— シコラックスは、モニカを復活させる

「実装はありますか」から質問を絞り込むことができますか？それは余裕があるようです、はい/いいえの回答および/またはソフトウェア要求のように聞こえます（これはトピックから外れています）。あなたの質問は、「実装がこれほど多くなかったように思われる理由をどのような困難が説明するのか」などのように詳しく説明できますか？

— GUNG -復活モニカ

より良い最適化は必ずしもより良いモデルを意味しません。最終的に私たちが気にするのは、モデルがどれだけうまく一般化されるかであり、必ずしもトレーニングセットのパフォーマンスがどれほど良いかということではありません。より洗練された最適化手法は、通常、トレーニングセットでパフォーマンスが向上し、収束が速くなりますが、基本アルゴリズムと同様に常に一般化されるわけではありません。たとえば、このペーパーは、SGDがADAMオプティマイザーよりも一般化できることを示しています。これは、2次の最適化アルゴリズムの場合にも当てはまります。

[編集]ここでは適用されないため、最初の点を削除しました。これを指摘してくれたbayerjに感謝します。

— Soroush
ソース

2番目の点には同意しますが、最初の点はここでは無効です。著者は、二次の複雑さを必要としないクリロフ部分空間でのみ最適化を行うことを提案しています。

— バイエルジ