ブースティング:学習率が正則化パラメーターと呼ばれるのはなぜですか?


19

学習率パラメータ(収縮を直列に追加され-typically浅いのTREE-各新しいベースモデルの寄与を昇圧勾配)。テストセットの精度が劇的に向上することが示されました。これは、より小さなステップで、損失関数の最小値をより正確に達成できるためです。 ν[0,1]

なぜ学習率が正則化パラメーターと見なされるのかわかりませんか?統計学習要素の引用、セクション10.12.1、p.364:

可能な正則化戦略は、木の数の制御だけではありません。リッジ回帰およびニューラルネットワークと同様に、収縮手法も使用できます。値が小さい (収縮が大きい)と、同じ反復回数トレーニングリスクが大きくなります。したがって、と両方がトレーニングデータの予測リスクを制御します。M ν MνMνM

正則化とは「過適合を回避する方法」を意味するため、その点で反復回数が重要であることは明らかです(Mが大きすぎると過適合になります)。しかし:MM

値が小さい(収縮が大きい)と、同じ反復回数Mのトレーニングリスクが大きくなります。νM

これは、学習率が低い場合、トレーニングセットで同じ精度を実現するにはより多くの反復が必要であることを意味します。それで、それはどのように過適合に関係しますか?

回答:


23

反復回数を介して目的関数を最小化しようとしているとします。現在の値はです。指定されたデータセットには「削減できないエラー」はなく、トレーニングデータの損失を0.0に最小化できます。これを行うには、2つの方法があります。100.00.0

  • 最初の方法は、「ラーニングレートが大きく」、反復回数が少ないことです。各反復で損失を減らすことができ、10回の反復で損失を0.0に減らすことができると仮定します。10.0100.0

  • 2番目の方法は、「学習速度が遅い」が、反復が多いことです。各反復で損失を減らすことができ、トレーニングデータの損失を0.0にするために100回の反復が必要だとします。1.0100

これについて考えてみましょう。2つのアプローチは同等ですか?そうでない場合、最適化コンテキスト機械学習コンテキストのどちらが優れていますか?

では、最適化の文学、2つのアプローチは同じです。両方が最適解に収束するため。一方、機械学習では、それらは等しくありません。ほとんどの場合、トレーニングの損失を設定しないため、過剰適合が発生します。0

最初のアプローチは「粗いレベルのグリッド検索」、2番目のアプローチは「細かいレベルのグリッド検索」と考えることができます。通常、2番目のアプローチはより適切に機能しますが、より多くの反復にはより多くの計算能力が必要です。

過剰適合を防ぐために、さまざまなことを行うことができます。最初の方法は、反復回数を制限することです。最初のアプローチを使用している場合、反復回数を5に制限します。最後に、トレーニングデータの損失は。(ところで、これは最適化の観点からすると非常に奇妙です。つまり、ソリューションを将来改善できることを意味します/収束しませんが、そうしないことを選択しました。通常は反復回数を制限しません。)50

0.15000.0

これが、小さな学習率が「より多くの正則化」に相当する理由です。

を使用した実験データで異なる学習率を使用する例を次に示しxgboostます。以下の2つのリンクをチェックして、etaそのn_iterations意味または意味を確認してください。

Tree Boosterのパラメーター

XGBoostコントロールの過剰適合

50

XGBoostモデルで学習率ETAを変更する例

PS。適合不足の証拠は、トレーニングセットとテストセットの両方に大きな誤差があり、トレーニングとテストのエラー曲線が互いに近いことです。過剰適合の兆候は、トレーニングセットのエラーが非常に低く、テストセットが非常に高く、2つの曲線が互いに離れていることです。


同じ損失に対して、低い学習率で、高い学習率でより多くの反復(検索の絞り込み)が許可されるということですか?私はあなたが伝えようとしている直観を手に入れたと思いますが、より厳密な説明や説明的な例は害になりません。
アントワーヌ

ありがとうございました。リンクを更新できますか?彼らは私のために働かない
アントワーヌ

後続の反復でトレーニングエラーを増加させない限り、より大きな学習率を使用することは常に優れています。参照している正則化(バイアスと分散)は、学習率ではなく、トレーニング/検証エラーに関連しています。ラーニングレートの大小を問わず、トレーニングエラーが0.0に達した場合、同じくらい過適合になります。より大きな学習率を使用している場合、オーバーフィットを防ぐために、最適化を早期に停止する必要があります。検証セットを使用して、トレーニングを停止する時点で検証エラーが増加するかどうかを確認できます。
好奇心が

または私は何かを見逃しているかもしれません:)
好奇心が

This is why small learning rate is sort of equal to "more regularizations"。この論文によると、学習率が大きいほど、より正則化されます。スーパーコンバージェンス:大きな学習率を使用したニューラルネットワークの非常に高速なトレーニング
Antoine

2

ニュートンの方法では、損失の勾配を損失の曲率で除算することにより、パラメーターを更新します。勾配降下最適化では、損失と学習率の勾配を差し引くことでパラメーターを更新します。つまり、実際の損失曲率の代わりに、学習率の逆数が使用されます。

問題の損失を、良いモデルと悪いモデルを定義する損失と定義しましょう。それは本当の損失です。最適化された損失を、更新ルールによって実際に最小化されるものとして定義しましょう。

定義により、正則化パラメーターは、最適化された損失内にある任意の用語ですが、問題損失ではありません。学習率は、最適化された損失の余分な2次項のように機能しますが、問題の損失とは関係がないため、正則化パラメーターです。

この観点を正当化する正則化の他の例は次のとおりです。

  • 重量減衰は、最適化された損失の大きな用語であり、大きな重量にペナルティを課します
  • 複雑なモデルを罰する用語
  • 機能間の相関関係にペナルティを与える用語。

-わからない In other words, the reciprocal of the learning rate is used in place of the real loss curvature。-私はドメインの専門家ではなく、定義を見たのは初めてですa regularization parameter is any term that is in the optimized loss, but not the problem loss。私もよくわかりません。関連する参考文献を提供していただけますか?事前に感謝
アントワーヌ

@Antoine参照を提供できません。他の3つの例を使用して正当化しようとしたのは、私の経験だけです。逆損失曲率の代わりに座っている学習率については、Newtonの方法と勾配降下更新規則を並べて書き出すとわかります。
ニールG
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.