ブースティングの相対的な変数の重要性
Gradient Boosted Treesで相対的な変数の重要度がどのように計算されるかについての説明を探しています。 メジャーは、変数が分割用に選択された回数に基づいており、各分割の結果としてモデルに対する2乗改善によって重み付けされ、すべてのツリーで平均されます。[ Elith et al。2008年、回帰ツリーをブーストするためのワーキングガイド ] そして、それは以下よりも抽象的ではありません: I2j^(T)=∑t=1J−1i2t^1(vt=j)Ij2^(T)=∑t=1J−1it2^1(vt=j)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 合計がJ末端ノードツリーTの非末端ノードに対するものであり、v tはノードtに関連付けられた分割変数であり、^ i 2 tは、定義された分割の結果としての二乗誤差の対応する経験的改善ですas i 2(R l、R r)= w l w rtttJJJTTTvtvtv_{t}ttti2t^it2^\hat{i_{t}^2}、 ¯ のY L、 ¯ Y Rはそれぞれ左右娘応答手段であり、WL、WR重みの対応する和です。i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2yl¯,yr¯yl¯,yr¯\bar{y_{l}}, \bar{y_{r}}wl,wrwl,wrw_{l}, w_{r}[フリードマン2001、グリーディ関数近似:勾配ブースティングマシン] 最後に、関連するセクション(10.13.1ページ367)が上記の2番目のリファレンス(説明される可能性がある)と非常に似ているため、統計学習の要素(Hastie et al。2008)がここで非常に役立つとは思いませんでした。フリードマンが本の共著者であるという事実によって)。 PS:相対変数の重要度の測定値は、gbm Rパッケージのsummary.gbmによって提供されることを知っています。ソースコードを調べようとしましたが、実際の計算がどこで行われているのか見つけることができないようです。 ブラウニーポイント:これらのプロットをRで取得する方法を知りたい