xgboostのおおよその分割点の提案を理解するのに助けが必要


12

バックグラウンド:

xgboost反復は、ツリー収まるようにしようとすべての上に以下の目的最小限の例:f t ntftn

i=1n[gift(xi)+12hift2(xi)]

ここで、は、以前の最良の推定(反復)に対する1次および2次導関数です。、Y、T - 1gi,hiy^t1

  • gi=dy^l(yi,y^)
  • hi=dy^2l(yi,y^)

そしては損失関数です。l


質問(最終的に):

を構築し、特定のスプリットの特定の特徴を検討する場合、次のヒューリスティックを使用して一部のスプリット候補のみを評価します。すべての例をでソートし、ソートされたリストを渡して、2次導関数を合計します。合計がより大きく変化する場合にのみ、分割候補を考慮します。何故ですか??? k x k h i ϵftkxkhiϵ

彼らが与える説明は私を逃れています:

彼らは、以前の方程式を次のように書き換えることができると主張している。

i=1n12hi[ft(xi)gi/hi]2+constant

そして、代数をたどることができません-なぜそれが等しいのか示していただけますか?

そして、彼らは「これはラベルと重みによる正確に重み付けされた2乗損失である」と主張します-私は同意する声明ですが、それが彼らが使用している分割候補アルゴリズムとどのように関連するのか理解していません...h igi/hihi

これがこのフォーラムには長すぎる場合は、ありがとうございます。

回答:


8

詳細については説明しませんが、次の内容は、アイデアを理解するのに役立ちます。

彼らは、分位点(Wikipedia)を使用して、分割する場所を決定します。100個の可能な分割ポイント、(ソート済み)がある場合、個の分位数の分割ポイントを試すことができますで、十分に近似しています。これがパラメータが行っていることです。分割のが最後の分割点よりも多い場合、分割点と見なされます。場合、分割ポイントになり、他のポイントのより大きくなります。彼らは「合計が以上変化するとき、新しい分割を考慮しません。10 { X 10はxは20xは90 } ε ε N ε = 0.01 100 { 1 2 99 } ϵ ϵ{x1,,x100}10{x10,x20,,x90}ϵϵNϵ=0.01100{1%,2%,...,99%}ϵ "ただし、現在のポイントの下のポイント数が最後のポイントより大きい場合。ϵ

さて、すでに十分に分類されている非常に多くの連続したポイントがある場合、それらを分割することは役に立たないかもしれません。非常に間違っている、学習が難しいデータセットの部分を分割したいとします。そのために、加重変位値を使用します。これは、重みが役割を果たす場所です。第 -quantileはより大きい最初の点ではありませんポイントが、より大きくなる最初の点の重み。10 10 1010%10%


投票するためにログインしました。わかりやすい説明ありがとうございます。
Pakpoom Tiwakornkit

3

@ウィンクスの答えに代数部分を追加するだけです:

2番目の方程式は、次のように符号が逆になります。

i=1n12hi[ft(xi)(gi/hi)]2+constant=i=1n12hi[ft2(xi)+2ft(xi)gihi+(gi/hi)2]=i=1n[gift(xi)+12hift2(xi)+gi22hi]

最後の項は確かに一定である:ことを覚えておいてくださいと、前の繰り返しで決定なので、彼らしている定数を設定しようとしたときにされている。gihift

したがって、「これはラベルと重みした正確に重み付けされた2乗損失である」と主張でき。h igi/hihi

クレジットは私のチームからYaronとAviに説明された。


0

そして、彼らは「これはラベルgi / higi / hiと重みhihiで正確に重み付けされた2乗損失である」と主張します。 。

  1. サンプルが1つしかなく、反復でを最適化している場合、値がであることがわかり、wtthw=gi/hi(ft(gi/hi))2

  2. これでデータセット全体ができました。損失関数に同じ2次導関数がある場合、はではなくになります。このように書いたのは、その場合、はサンプル間のの違いとは関係ないからです。違いがないからです。ただし、実際には、変更しない場合、は分布に変動します。wavg(gi)/constsigma(gi)/sigma(hi)whigiwhi

によって重み付けされているため、なぜ機能するかを説明していると思います。hi

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.