ブースティング:学習率が正則化パラメーターと呼ばれるのはなぜですか?
学習率パラメータ(収縮を直列に追加され-typically浅いのTREE-各新しいベースモデルの寄与を昇圧勾配)。テストセットの精度が劇的に向上することが示されました。これは、より小さなステップで、損失関数の最小値をより正確に達成できるためです。 ν∈ [ 0 、1 ]ν∈[0,1]\nu \in [0,1] なぜ学習率が正則化パラメーターと見なされるのかわかりませんか?統計学習の要素の引用、セクション10.12.1、p.364: 可能な正則化戦略は、木の数の制御だけではありません。リッジ回帰およびニューラルネットワークと同様に、収縮手法も使用できます。値が小さい (収縮が大きい)と、同じ反復回数トレーニングリスクが大きくなります。したがって、と両方がトレーニングデータの予測リスクを制御します。M ν Mνν\nuMMMνν\nuMMM 正則化とは「過適合を回避する方法」を意味するため、その点で反復回数が重要であることは明らかです(Mが大きすぎると過適合になります)。しかし:MMMMMM 値が小さい(収縮が大きい)と、同じ反復回数Mのトレーニングリスクが大きくなります。νν\nuMMM これは、学習率が低い場合、トレーニングセットで同じ精度を実現するにはより多くの反復が必要であることを意味します。それで、それはどのように過適合に関係しますか?