ランダムフォレストの結果が変動しやすいのはなぜですか?


10

2つのグループ間でサンプルを分類するランダムフォレストの機能をテストしようとしています。分類に使用される54のサンプルとさまざまな数の変数があります。

50kのツリーを使用している場合でも、out-of-bag(OOB)の見積もりが互いに5%も異なる場合があるのはなぜですか。これはブートストラップが役立つものですか?


6
いくつかのサンプルが必要です。5万本の木はサンプルが少ないので意味がありません。ほとんどの場合、バリエーションは、1つのサンプルが実行間で誤って分類されています。
2017年

@ThiS木の数を増やすと、得られる差異の量が減ると思った。効果的にゼロにするか、どれが最も正確かを知る方法はありますか?
Sethzard 2017年

回答:


12

OOB差異には2つの原因があります。1つは、手順自体のランダム性です。これは木の数を増やすことで減らすことができます。

もう1つの差異の原因は、データが限られていて複雑な世界に住んでいるという既成の不完全さです。木の数を増やしてもこれを修正することはできません。

さらに、問題を解決するのに十分なデータがない場合もあります。たとえば、2つのインスタンスが反対のラベルを持っているが、同じ特徴値を持っているとします。これらのサンプルの1つは常に誤って分類されます。(これは極端な例ですが、いくつかの問題が修正不可能である方法を示しています。1つのベクトルへの小さな摂動を考慮することにより、ある程度緩和できます。現在は通常、双子と同じように分類されますが、常にではありません。)この問題を解決するには、2つのポイントをさらに区別するには、追加の測定値を収集する必要があります。

p(y=1|x)x¯x¯x¯N(μ,σ2n)μσ2x¯σ2=0

既約の差異は、ブートストラップでは修正できません。さらに、ランダムフォレストは既にブートストラップされています。それがその名前に「ランダム」を持っている理由の一部です。(もう1つの理由は、機能のランダムなサブセットが各分割で選択されることです。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.