回答:
はい、両方のトリックを使用することは非常に一般的です。彼らはさまざまな問題を解決し、うまく機能します。
それについて考える1つの方法は、重量減衰が最適化されている関数を変更し、運動量が最適な経路を変更することです。
係数をゼロに向けて縮小することにより、重み減衰により、大きさの小さいパラメーターで局所的な最適値を見つけることができます。これは通常、過剰適合を回避するために重要です(ただし、重みに対する他の種類の制約も機能します)。副次的な利点として、目的関数をより凸型にすることで、モデルの最適化を容易にすることもできます。
目的関数を取得したら、その上をどのように移動するかを決定する必要があります。勾配の最急降下は最も簡単なアプローチですが、変動が大きな問題になる可能性があることは確かです。勢いを追加すると、その問題を解決するのに役立ちます。バッチ更新を使用している場合(通常、ニューラルネットワークでは悪い考えです)、ニュートンタイプのステップは別のオプションです。新しい「ホット」アプローチは、Nesterovの加速勾配と、いわゆる「ヘッシアンフリー」最適化に基づいています。
ただし、使用するこれらの更新ルール(運動量、ニュートンなど)に関係なく、エラー関数(2乗誤差など)およびその他の制約(重みの減衰など)によって決定される同じ目的関数を引き続き使用します。 。これらのどれを使用するかを決定する際の主な質問は、どれだけ早く適切な重みのセットに到達するかです。