ランダムフォレストツリーに剪定が不要なのはなぜですか?


20

ブライマンは、木は剪定せずに成長していると言います。どうして?ランダムフォレストのツリーが剪定されないのは確かな理由があるに違いないということです。一方、過剰なフィッティングを避けるために、単一の決定木を切り取ることが非常に重要であると考えられています。この理由で読むことができる文献はありますか?もちろん、ツリーは相関していないかもしれませんが、それでも過剰適合の可能性があります。


ここでは、コンテキストについて詳しく説明する必要があります。@ChrisA。は注目に値する試みをしましたが、あなたの質問が本当に答えられたかどうかを知ることは困難です。
GUNG -復活モニカ

2
これ以上何を言う必要がありますか?問題は非常に明確です。
Seanosapien

回答:


20

大まかに言うと、単一のツリーで発生する可能性のある過剰適合の一部(これは一般的に剪定を行う理由です)は、ランダムフォレストの2つのことによって緩和されます。

  1. 個々のツリーのトレーニングに使用されるサンプルが「ブートストラップ」されるという事実。
  2. ランダムフィーチャを使用して多数のランダムツリーを持っているため、個々のツリーは強力ですが、相互にそれほど相関していないという事実。

編集:以下のOPのコメントに基づいて:

過剰適合の可能性はまだあります。記事に関しては、Breimanによる「袋詰め」の動機と、一般的にEfronとTibshiraniによる「ブートストラップ」の動機について読むことができます。2.に関して、ブリーマンは、木の強度と個々の分類子の反相関に関連する一般化エラーの緩やかな限界を導き出しました。(ほとんどの場合)バウンドを使用する人はいませんが、アンサンブルメソッドで一般化エラーを低くするのに役立つものについて直感を提供することを目的としています。これは、ランダムフォレストの論文自体に記載されています。私の投稿は、これらの測定値と私の経験/推論に基づいて、あなたを正しい方向に導くことでした。

  • Breiman、L.、Bagging Predictors、Machine Learning、24(2)、pp.123-140、1996。
  • エフロン、B .; Tibshirani、R.(1993)。ブートストラップの紹介。フロリダ州ボカラトン
  • ブレイマン、レオ(2001)。「ランダムフォレスト」。機械学習45(1):5–32。

しかし、まだ過剰適合の可能性があるかもしれません。これについて読む記事を引用できますか?
Zカーン

@ZカーンおそらくこのZカーンですか?その場合は、アカウントを統合できるようにお知らせください。
whuber

3
@ZKhan RFの過剰適合の問題は、Hastie et al、(2009)Elements of Statistics Learning、2nd Editionで説明されています。この本のWebサイトで無料のPDFを入手できます。ランダムフォレストの章をご覧ください。
モニカの復活-G.シンプソン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.