逆伝播アルゴリズムの運動量項はどのように機能しますか?


9

運動量項を含むバックプロパゲーションアルゴリズムを使用してニューラルネットワークの重みを更新する場合、学習率を運動量項にも適用する必要がありますか?

運動量の使用に関して私が見つけることができるほとんどの情報は、次のような方程式を持っています。

Wi=WiαΔWi+μΔWi1

ここで、は学習率、は運動量項です。αμ

場合用語がより大きくなる次の繰り返しで、その後長期前の反復からは、現在のものよりも重量に大きな影響を持つことになります。μαΔW

これは勢い用語の目的ですか?または方程式はもっとこのように見えるべきですか?

Wi=Wiα(ΔWi+μΔWi1)

すなわち。すべてを学習率でスケーリングしていますか?

回答:


10

有するネットワーク内の運動量とバックプロパゲーションを用いて、異なる重みW K I重量ため番目補正W Kはによって与えられます。nWkiWk

EΔWk(i)=αEWk+μΔWk(i1) WRT損失の変化であるWKEWkWk

運動量率の導入により、勾配降下における振動の減衰が可能になります。このアイデアの背後にある幾何学的なアイデアは、線形の場合の固有空間解析の観点から理解するのが最も良いでしょう。最小固有値と最大固有値の比率が大きい場合、行列の調整により学習率が大きくても、勾配降下の実行は遅くなります。運動量は、より低い固有値とより大きな固有値に関連付けられた固有ベクトル間の更新にいくらかのバランスを導入します。

詳細については、私が参照します

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf


下線は何を意味していますか?
David Richerby 2014年

計算するときに大丈夫、勢いの用語ように組み込まれている用語を「新しい」重み値を計算する際に追加のではなく、?ただ、明確にするために、あなたの用語はずμ W KI - 1 BE μ Δ W KI - 1 ?それとも、率の変化ではなく、実際の体重の割合ですか?お返事と論文へのリンクに感謝します。ΔWkμWk(i1)μΔWk1
guskenny83 2014年

間違いを指摘してくれてありがとう。もちろんであるΔWk1
ニコ

「損失の変動」とはどういう意味ですか?それは「エラーの変動」のようなものですか?
starbeamrainbowlabs

これは、重みに関する誤差の導関数にすぎません。
nico
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.