回答:
これは、勾配降下法とニュートン法の両方を解釈するための一般的なフレームワークです。これは、@ Sycoraxの答えの補足として違いを考えるのに役立つ方法かもしれません。(BFGSはNewtonのメソッドに近似しています。ここでは特に説明しません。)
関数最小化していますが、それを直接行う方法はわかりません。したがって、代わりに、現在の点xで局所近似を取り、それを最小化します。
:ニュートン法は、2次テイラー展開を用いて関数近似 ∇ F (xは)の勾配意味 Fの時点で Xと ∇ 2 F (X )におけるヘッセ行列 X。次に、 arg min y N x(y )に進み、繰り返します。
ヘッセ行列ではなく勾配のみを持つ勾配降下では、@ Hurkylが最小値を持たないため、1次近似を作成して最小化することはできません。その代わりに、我々はステップサイズを定義へとステップXが- T ∇ F (X )。ただし、 x − t したがって、勾配降下を最小化関数 GX(Y):=F(X)+∇F(X)T(Y-X)+1
したがって、勾配降下法は、ニュートン法を使用するようなものですが、2次のテイラー展開をとる代わりに、ヘッセ行列が1であると仮定します。
二次を最小化する@Sycoraxの例を 見る
基本的に、Newtonの方法のような2次導関数の利点は、2次終了の品質があることです。これは、有限数のステップで2次関数を最小化できることを意味します。勾配降下法のような方法は学習率に大きく依存し、最適化が最適に跳ね返るためゆっくり収束するか、完全に発散する可能性があります。安定した学習率を見つけることができます...しかし、ヘシアンの計算が含まれます。安定した学習率を使用している場合でも、最適化の周りの振動などの問題が発生する可能性があります。そのため、たとえ終了したとしても、多くの反復を要することがありますあなたは比較的それに近いです。BFGSとNewtonの方法は、各ステップの計算作業がより高価であっても、より迅速に収束できます。
例のリクエストに対して:目的関数があるとします
これは、固有ベクトルの大きさが このプロパティを使用して、安定した学習率が次の条件を満たすことを示すことができます。
ニューラルネットワークの特定のコンテキストでは、本Neural Network Designには数値最適化手法に関するかなりの情報があります。上記の説明は、セクション9-7の要約です。