一般化されたブースト回帰モデルでツリーの数を選択するにはどうすればよいですか?


11

GBMでツリーの数を選択するための戦略はありますか?具体的には、の関数のntrees引数。Rgbm

なぜあなたがntrees最高の合理的な値に設定すべきでないのかわかりません。ツリーの数を増やすと、複数のGBMの結果のばらつきが明らかに減少することに気づきました。木が多いからといって、過剰適合になるとは思いません。

何かご意見は?

回答:


3

これはGBMです。

私はそうは思わない...」は、多くの文章の危険な最初の部分でした。

十分な善は、善の尺度、ルーブリックなしでは意味がありません。

他の方法の良さの尺度は何ですか?

  • モデルとデータの違い(sse、...)
  • ホールドアウトセット内のエラーの発散(トレーニングエラーとテストエラー)
  • パラメータカウントとサンプルカウントの比率(ほとんどの人は、パラメータごとに5サンプルまたはパラメータごとに30サンプルなど)
  • 相互検証(エラーテストの相違に関するアンサンブルメソッド)

ニューラルネットワークまたはスプラインのように、データに対して区分的線形補間を実行して、一般化できないモデルを取得できます。一般化-一般化と引き換えに、「低エラー」の一部をあきらめる必要があります。

その他のリンク:


2

私は問題へのいくつかの洞察を見つけました:http : //cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

このgbm.step関数は、ツリーの最適な数を決定するために使用できます。一定数の木の後にモデルの逸脱が増加する原因がまだわからないので、質問のこの部分に答える応答を受け入れます!


2
過剰適合は増加を引き起こします。ほとんどの優れた方法は、ホールドアウトセットを作成し、それを使用してモデルをテストしますが、モデルの更新には使用しません。これにより、オーバーフィットの開始を検出できます。
EngrStudent 2014年

0

これはElithらからブースト回帰ツリーに取り組んでGUID:ある http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full 非常に役に立ちました!

少なくとも1000本のツリーを使用する必要があります。私が理解している限り、最小予測誤差を実現する学習率、ツリーの複雑さ、およびツリーの数の組み合わせを使用する必要があります。学習率の値が小さいほど、同じ反復数のトレーニングリスクが大きくなりますが、反復ごとにトレーニングリスクが減少します。ツリーの数が十分に多い場合、リスクを任意に小さくすることができます(Hastie et al。、2001、「The Elements of Statistical Learning、Data Mining、Inference and Prediction」を参照)。


それはそのエリス他であることは事実です。経験則として、1000本の木を使用することをお勧めします。ただし、これは、このペーパーで使用されている特定のデータセットの予測安定性の詳細な分析に基づいています。同じ数がすべての可能なデータセットで機能する可能性は低いようです。特に付録S1で、彼らが実行した分析の詳細を説明することで、答えを少し広げることができるでしょう。
DeltaIV 2017年

0

一部の機械学習アルゴリズムで一般的であるように、ブースティングはツリーの数に関するバイアス分散のトレードオフの影響を受けます。大まかに言えば、このトレードオフは次のことを示しています:(i)弱いモデルは高いバイアスと低い分散を持つ傾向があります:トレーニングデータセットの変動を捉えるには硬すぎるため、テストセットでも適切に実行されません(高いテストエラー)(ii)非常に強いモデルはバイアスが低く、分散が高い傾向があります。モデルが柔軟すぎて、トレーニングセットに適合していません。したがって、テストセットでは(データポイントがトレーニングセットと異なるため)、うまく機能しません。 (高いテストエラー)

ブースティングツリーのコンセプトは、浅いツリー(弱いモデル)から始めて、以前のツリーの弱点を修正しようとする浅いツリーをさらに追加していくことです。このプロセスを実行すると、テストエラーが減少する傾向があります(モデル全体がより柔軟/強力になるため)。ただし、追加するツリーが多すぎると、トレーニングデータの過剰適合が始まり、テストエラーが増加します。相互検証はスイートスポットを見つけるのに役立ちます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.