運動量項を含むバックプロパゲーションアルゴリズムを使用してニューラルネットワークの重みを更新する場合、学習率を運動量項にも適用する必要がありますか?
運動量の使用に関して私が見つけることができるほとんどの情報は、次のような方程式を持っています。
ここで、は学習率、は運動量項です。
場合用語がより大きくなる次の繰り返しで、その後長期前の反復からは、現在のものよりも重量に大きな影響を持つことになります。
これは勢い用語の目的ですか?または方程式はもっとこのように見えるべきですか?
すなわち。すべてを学習率でスケーリングしていますか?