ランダムフォレストはオーバーフィットできませんか?


10

ランダムフォレストはオーバーフィットできないといういくつかの文献を読みました。これは素晴らしいように聞こえますが、本当であるには余りにも良いようです。RFがオーバーフィットする可能性はありますか?


5
フィットする場合、オーバーフィットする可能性があります。RFの観点から、フォレストに十分な木が含まれていない場合にどうなるかを考えます(効果を明確にするために、フォレストが単一のツリーであるとしましょう)。これよりも多くの問題がありますが、これが最も明白です。
Marc Claesen、2014

予測子の数が多い場合は簡単にオーバーフィットする可能性があるというRFの別のスレッドに応答しました。
horaceT 2016年

回答:


7

ランダムフォレストはオーバーフィットする可能性があります。私はこれを確信しています。通常意味することは、より多くの木を使用してもモデルが過剰適合しないことです。

たとえば、ランダムフォレストをてモデルを推定し。トレーニングエラーはほとんどありませんが、予測エラーが発生しますy=log(x)+ϵ


ランダムフォレストは、主に分散を減らしますが、どのようにオーバーフィットできますか?@Donbeoの原因はおそらく、デシジョンツリーモデルが外挿でうまく機能しないためです。たとえば、異常な予測子変数の場合、DTは悪い予測を与える可能性があるとしましょう。
イタチ

過剰適合の明確な兆候の1つは、残差の分散が大幅に減少していることです。 では、最初の発言で何を暗示しようとしているのですか?
whuber

バイアスと分散のトレードオフでは、バイアスを減らそうとすると、分散を補正します。そのため、x = 80の場合、y = 100になりますが、x = 81の場合、y = -100になります。これは過剰適合でしょう。分散が高い場合と似ていません。@whuber ovefittingは分散が大きいためだと思いました。残差の分散を減らすとオーバーフィットがどのように発生するのかわかりません。私が読んでもらうためにいくつかの紙を共有していただけませんか。
イタチ

2
これは紙を必要としません!自分で試すことができます。以下のような小さなシンプルな二変量データセット、乗りし、任意の対応のコレクションあなたが生成するために気に。最小二乗法(これは残差の分散を減らすことを目的としているため)を使用して、一連のモデル for。各ステップは、最後のステップで分散がゼロになるまで分散を減らします。ある時点で、ほとんど誰もが同意するでしょう。モデルはデータを過剰適合し始めています。xi=1,2,,10yiy=β0+β1x+β2x2++βkxkk=0,1,,9
whuber

@whuber「分散の減少」とは何かについて、あなたはポイントを逃していると思います。ランダムフォレスト(および一般的にバギング)では、残差の分散は減少しませんが、予測の分散は減少します。したがって、あなたの例では、あなたが話する各ステップは、分散を増加させます:)
Davide ND
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.