回答:
学習率は、更新ステップが重みの現在の値にどの程度影響するかを決定するパラメーターです。重み減衰は、他の更新がスケジュールされていない場合、重みを指数関数的にゼロに減衰させる重み更新ルールの追加用語です。
したがって、最小化したいコスト関数またはエラー関数あるとします。勾配降下は、の最急降下の方向に重みを変更するように指示し: ここで、は学習率であり、それが大きい場合は、それに応じて重み大きな変更が行われます(一般に、大きすぎてはいけません。そうでなければ、コスト関数の極小値をオーバーシュートします)。
モデルの空きパラメータの数を効果的に制限して、過剰適合を回避するために、コスト関数を正規化することができます。これを行う簡単な方法は、重みの前にゼロ平均ガウスを導入することです。これは、コスト関数をに変更することと同等です。。実際には、これは大きな重みにペナルティを課し、モデルの自由度を効果的に制限します。正則化パラメーターは、元のコストと大きな重みペナルティとのトレードオフを決定します。
この新しいコスト関数に勾配降下法を適用すると、 正則化に由来する 新しい項により、重みはそのサイズに比例して減衰します。
@mrigの答え(+1)に加えて、ニューラルネットワークの多くの実用的なアプリケーションでは、Levenberg-Marquardt(小中規模ネットワーク)やスケーリングされた共役勾配降下(中大)などのより高度な最適化アルゴリズムを使用することをお勧めしますネットワーク)、これらははるかに高速であり、学習率を設定する必要はありません(両方のアルゴリズムは、曲率と勾配を使用して基本的に学習率を調整します)。適切なニューラルネットワークパッケージまたはライブラリには、これらのメソッドのいずれかの実装がありますが、そうでないパッケージはおそらく廃止されます。私は、MATLAB用のNETLABライブラリを使用していますが、これはすばらしいキットです。
私は簡単な用語:
learning_rate:ニューラルネットワークモデルが問題を学習する速度を制御します。
ref:https : //machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/
wight_decay:これは、過剰適合を回避するために使用される正則化手法です。
ref:https : //metacademy.org/graphs/concepts/weight_decay_neural_networks