勾配ブースティングツリーとランダムフォレスト


110

Friedmanが提案する勾配ツリーブースティングでは、決定木をベース学習器として使用します。基本決定ツリーを可能な限り複雑にする(完全に成長させる)か、もっと単純にするべきか疑問に思っています。選択の説明はありますか?

ランダムフォレストは、決定木を基本学習器として使用する別のアンサンブル手法です。私の理解に基づいて、通常、各反復でほぼ完全に成長した決定木を使用します。私は正しいですか?


1
ブーストされたツリーの別の非常に良い参照をここで見つけることができます:xgboost.readthedocs.io/en/latest/model.html
Naghmeh

回答:


149

error = bias + variance

  • ブースティングは、学習器(高バイアス、低分散)に基づいています。決定木に関しては、弱学習器は浅い木であり、時には決定切り株(2葉のある木)と同じくらい小さいものです。ブースティングは、主にバイアスを減らすことで(および、多くのモデルからの出力を集約することで、ある程度のばらつきもあります)、エラーを減らします。
  • 一方、ランダムフォレストでは、完全に成長した決定木(低バイアス、高分散)を使用します。反対に、誤差を減らすことにより、エラー削減タスクに取り組みます。分散の減少を最大化するためにツリーは無相関になりますが、アルゴリズムはバイアス(フォレスト内の個々のツリーのバイアスよりわずかに高い)を減らすことはできません。したがって、バイアスが最初はできるだけ低くなるように、大きくて剪定されていないツリーの必要性。

Boosting(順次)とは異なり、RFはツリーを並行して成長させることに注意してください。iterativeしたがって、使用した用語は不適切です。


1
「分散の減少を最大化するために木は無相関になりますが、アルゴリズムはバイアス(森林内の個々の木のバイアスよりわずかに高い)を減らすことはできません」-「個人のバイアスよりわずかに高い」という部分森の中の木」が間違っているようです。web.stanford.edu/~hastie/Papers/ESLII.pdfのセクション15.4.2を参照してください:「バギングと同様に、ランダムフォレストのバイアスは、個々のサンプリングされたツリーのバイアスと同じです。」「元のデータに適合する単一の完全に成長したツリーのバイアスよりもわずかに高い」ということですか?
エイドリアン

1
@gung OPには未回答の重要な質問があると思います。GBMの最初のステップで完全に成長したツリーを使用してみませんか。完全に成長した単一のツリーよりも弱い学習器のシーケンスを使用するほうがよいのはなぜですか?私はそれについて興味があります
-ftxx

55

この質問はこの非常に素晴らしい投稿で対処されています。それとその中の参考文献を見てください。http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

記事で、キャリブレーションについて話していること、およびそれに関する別の(素敵な)ブログ投稿にリンクしていることに注意してください。それでも、「ブースティングからキャリブレーションされた確率を取得する」という論文は、ブーストされた分類器のコンテキストでのキャリブレーションと、それを実行するための標準的な方法とについての理解を深めることがわかります。

最後に、1つの側面が欠落しています(もう少し理論的です)。RFとGBMは両方ともアンサンブルメソッドです。つまり、多数の小さな分類器から分類器を構築します。ここで、根本的な違いは使用する方法にあります。

  1. RFはデシジョンツリーを使用しますが、これは非常に適合しやすい傾向があります。より高い精度を達成するために、RFは、バギングに基づいて多数を作成することを決定します。基本的な考え方は、データを何度もリサンプリングし、各サンプルごとに新しい分類器をトレーニングすることです。異なる分類器は異なる方法でデータをオーバーフィットし、投票によりそれらの差は平均化されます。
  2. GBMは、弱い分類器を基にしたブースティングメソッドです。アイデアは一度に分類器を追加することで、次の分類器は既に訓練された集団を改善するために訓練されます。RFの反復ごとに、分類器は他の分類器から独立してトレーニングされることに注意してください。

3
RFMがGBMを超えてオーバーフィットするという回答からの公正な結論でしょうか?
22:42

4
@ 8forty私はその結論を導き出しません-RFの単一ツリーはGBMの単一ツリーよりもオーバーフィットしますが(これらははるかに小さいため)、RFではこれらのオーバーフィットは多くのツリーを使用するときに平均化されますGBMを追加するほど、過剰適合のリスクが高くなります。N(使用樹木の数)が無限大になると、要するに、私は、RFがGBMよりもはるかに少ないがオーバーフィットすることを期待
Antの
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.