(決定木を使用した)バギングの剪定は避けるべきですか?


8

木の「袋詰め」アンサンブルでの剪定は不要であると主張するいくつかの投稿と論文を見つけました(1を参照)。

ただし、アンサンブル内の個々のツリーに対してプルーニング(たとえば、OOBサンプルを使用)を実行することは、必ずしも(または少なくともいくつかの既知のケースでは)損傷を与えるのでしょうか。

ありがとう!

回答:


6

タル、

一般的に言って、剪定はバギングされた木のパフォーマンスに悪影響を及ぼします。

Tressは不安定な分類子です。つまり、データを少し混乱させると、ツリーが大幅に変化する可能性があります。これらは、バイアスは低いが分散が大きいモデルです。バギングは通常、モデルを「複製」して分散を小さくすることで機能します(古い「サンプルサイズを増やす」トリック)。

ただし、非常によく似たモデルの平均化を行うと、あまり効果がありません。木が剪定されていない場合、それらは剪定された場合よりも互いに異なる傾向があります。これには、ツリーを「非相関化」する効果があるため、過度に類似していないツリーを平均化します。これは、ランダムフォレストがランダムな予測子の選択をさらに微調整する理由でもあります。それは木を非常に異なるものに強制します。

枝刈りされていないツリーを使用すると過剰適合のリスクが高まりますが、モデルの平均化はこれを相殺するだけではありません(一般的に言えば)。

HTH、

マックス


マックスに感謝します。あなたの答えは役に立ち、洞察力があります。Yours、Tal
Tal Galili
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.