xgboostでのツリーの複雑さの定義


9

xgboostアルゴリズムについて調査し、ドキュメントを調べました。

このアプローチでは、ツリーは複雑さの定義を使用して正則化されます。 ここで、とはパラメーターで、は末端の葉とは各葉のスコアです。

Ω(f)=γT+12λj=1Twj2
γλTwj

これは複雑さをどのように定義するのでしょうか?ターミナルノードの数であるは、私には自然に思えます。しかし、最終スコアの合計は2乗されますか?T

多分オーバーフィッティングを意味します。非常に大きなスコアがあまりにも多くの信頼を与えることを意味しますか?弱い学習者を取得するために選択されていますか?この複雑度関数の選択についての自然な説明は何ですか?

回答:


7

これは私には理にかなっています。

私はガウスのケースに焦点を当てます。ここで、各ツリーは現在のモデルの残差に適合し、モデルの更新はです。グラディエントブースターのアイデアは、これらのツリーを1つずつ追加して、モデルのバイアスを注意深くゆっくりと減らすことです。M I + 1 = M I + α T ITiMi+1=Mi+αTi

この場合、値が大きいと、ターミナル(リーフ)ノードに対応し、以前のモデルに非常に大きく重要な更新が行われます。正則化用語の考え方は、これらの大きな単一ツリー更新のインシデントを最小限に抑えることです(モデル損失関数の減少が正則化ペナルティを相殺するのに十分な大きさである場合にのみ許可する)。そのような更新が単一のツリーに対して正規化されているが正当化されることが判明した場合、ブースティングの哲学に従って、複数のモデルの更新に組み込まれます。wi

これは、尾根回帰と非常によく似ています。


おかげで、弱い学習者について話すときと同じように、あなたはそれについて考えます...あまり大きなステップを踏まない場合、ある意味で弱い..
Ric

「ガウスケース」とは何かについて具体的に教えてください。ガウシアンの混合に適合しますか?
Haitao Du

@ hxd1011ガウス分布の対数尤度とも呼ばれる、二乗誤差損失の合計を使用していることを意味します。重要な点は、ここでは、残差に適合していると仮定できることです。
Matthew Drury

@MatthewDruryこの関連する質問を見てください。ありがとう!! stats.stackexchange.com/questions/229599/...
ハイタオ・ドゥ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.