回答:
これはGBMです。
「私はそうは思わない...」は、多くの文章の危険な最初の部分でした。
十分な善は、善の尺度、ルーブリックなしでは意味がありません。
他の方法の良さの尺度は何ですか?
ニューラルネットワークまたはスプラインのように、データに対して区分的線形補間を実行して、一般化できないモデルを取得できます。一般化-一般化と引き換えに、「低エラー」の一部をあきらめる必要があります。
その他のリンク:
私は問題へのいくつかの洞察を見つけました:http : //cran.r-project.org/web/packages/dismo/vignettes/brt.pdf
このgbm.step
関数は、ツリーの最適な数を決定するために使用できます。一定数の木の後にモデルの逸脱が増加する原因がまだわからないので、質問のこの部分に答える応答を受け入れます!
これはElithらからブースト回帰ツリーに取り組んでGUID:ある http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full 非常に役に立ちました!
少なくとも1000本のツリーを使用する必要があります。私が理解している限り、最小予測誤差を実現する学習率、ツリーの複雑さ、およびツリーの数の組み合わせを使用する必要があります。学習率の値が小さいほど、同じ反復数のトレーニングリスクが大きくなりますが、反復ごとにトレーニングリスクが減少します。ツリーの数が十分に多い場合、リスクを任意に小さくすることができます(Hastie et al。、2001、「The Elements of Statistical Learning、Data Mining、Inference and Prediction」を参照)。
一部の機械学習アルゴリズムで一般的であるように、ブースティングはツリーの数に関するバイアス分散のトレードオフの影響を受けます。大まかに言えば、このトレードオフは次のことを示しています:(i)弱いモデルは高いバイアスと低い分散を持つ傾向があります:トレーニングデータセットの変動を捉えるには硬すぎるため、テストセットでも適切に実行されません(高いテストエラー)(ii)非常に強いモデルはバイアスが低く、分散が高い傾向があります。モデルが柔軟すぎて、トレーニングセットに適合していません。したがって、テストセットでは(データポイントがトレーニングセットと異なるため)、うまく機能しません。 (高いテストエラー)
ブースティングツリーのコンセプトは、浅いツリー(弱いモデル)から始めて、以前のツリーの弱点を修正しようとする浅いツリーをさらに追加していくことです。このプロセスを実行すると、テストエラーが減少する傾向があります(モデル全体がより柔軟/強力になるため)。ただし、追加するツリーが多すぎると、トレーニングデータの過剰適合が始まり、テストエラーが増加します。相互検証はスイートスポットを見つけるのに役立ちます