バギングされたツリー/ランダムフォレストツリーは、単一の決定ツリーよりもバイアスが高いのはなぜですか?


11

完全に成長した決定木(つまり、枝刈りされていない決定木)を考えると、分散が大きく、バイアスが低くなります。

バギングおよびランダムフォレストは、これらの高分散モデルを使用し、分散を減らして予測精度を高めるためにそれらを集約します。バギングフォレストとランダムフォレストはどちらもブートストラップサンプリングを使用します。「統計学習の要素」で説明されているように、これにより単一ツリーのバイアスが増加します。

さらに、ランダムフォレスト法では、各ノードで分割できる変数が制限されるため、単一のランダムフォレストツリーのバイアスがさらに大きくなります。

したがって、予測精度が向上するのは、バギングおよびランダムフォレストの単一ツリーのバイアスの増加が分散の減少を「過度に」超えていない場合のみです。

これにより、次の2つの質問が生じます。1)ブートストラップサンプリングを使用すると、(ほとんどの場合)ブートストラップサンプルに同じ観察結果がいくつかあることを知っています。しかし、なぜこれがバギング/ランダムフォレストの個々の木のバイアスの増加につながるのでしょうか。2)さらに、分割ごとに分割できる変数の制限により、ランダムフォレスト内の個々のツリーでバイアスが高くなるのはなぜですか?

回答:


5

私は1)の回答をKunlunから受け入れますが、このケースを閉じるために、論文で到達した2つの質問について結論を出します(どちらも上司に受け入れられました)。

1)より多くのデータはより良いモデルを生成し、モデル全体をトレーニングするためにトレーニングデータ全体の一部のみを使用するため(ブートストラップ)、各ツリーでより高いバイアスが発生します(Kunlunによる回答からコピー)

2)ランダムフォレストアルゴリズムでは、各分割で分割する変数の数を制限します。つまり、データを説明する変数の数を制限します。この場合も、各ツリーでより高いバイアスが発生します。

結論:どちらの状況も、母集団を説明する能力を制限する問題です。最初に観測数を制限し、次に各分割で分割する変数の数を制限します。両方の制限により、各ツリーのバイアスが高くなりますが、多くの場合、モデルの分散減少は各ツリーのバイアスの増加を上回ります。したがって、バギングフォレストとランダムフォレストは、単一の決定ツリーよりも優れたモデルを生成する傾向があります。


-1

あなたの質問はかなり簡単です。1)トレーニングデータ全体の一部のみを使用してモデル(ブートストラップ)をトレーニングするため、より多くのデータがより良いモデルを生成します。より高いバイアスは妥当です。2)分割数が多いほど、ツリーが深くなるか、ノードが純粋になります。これにより、通常、分散が大きくなり、バイアスが低くなります。分割を制限すると、分散が低くなり、バイアスが高くなります。


4
各ブートストラップサンプルは等しく可能性が高く、バイアスは平均モデルの動作に関するものであるため、私は1)の引数を購入しません。それはそれよりももっと微妙なように思えます。また、2)尋ねられた質問に対応しているとは思いません。ポスターは、「成長する浅い木」のように「限界分割」を意味しません。
Matthew Drury、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.