ランダムフォレストと極端にランダム化されたツリーの違い


40

ランダムフォレストと極端にランダム化されたツリーは、ランダムフォレスト内のツリーの分割が決定論的であるという意味で異なりますが、極端にランダム化されたツリーの場合はランダムです(より正確には、次の分割が最適な分割です現在のツリーの選択された変数のランダムな均一な分割の間で)。しかし、私はさまざまな状況でのこの異なる分割の影響を完全には理解していません。

  • 彼らはバイアス/分散の観点からどのように比較しますか?
  • 無関係な変数が存在する場合、それらはどのように比較されますか?
  • 相関変数の存在下でどのように比較しますか?

2
(a)ERTは、最適な分割が少ないためにバイアスがかかる場合があります/ ERTは、ツリーのさらなる非相関性により、分散を減らすことがあります。(b)私は同じことを推測しますが、確かではありません。(c)私は同じことを推測しますが、わかりません。Extra:ランダム変数サンプリングによるRF決定論的分割は呼び出しません。もちろん、ツリーはブートストラップによるものでもありません。
ソレンHavelundウェリング

とはuniform split
オクタヴィアン

回答:


28

Extra-(Randomized)-Trees(ET)の記事には、バイアス分散分析が含まれています。16ページでは、6つのテスト(ツリー分類と3つの回帰)のRFを含む複数の方法との比較を見ることができます。

どちらの方法もほぼ同じですが、ノイズの多いフィーチャが多数ある場合(高次元のデータセットで)ETは少し悪くなります。

とはいえ、(おそらく手動の)機能選択がほぼ最適であれば、パフォーマンスはほぼ同じですが、ETの計算はより高速になります。

記事自体から:

アルゴリズムの分析といくつかのテスト問題のバリエーションのKの最適値の決定により、値は原則として問題の詳細、特に無関係な属性の割合に依存することが示されました。[...]バイアス/分散分析は、Extra-Treeが分散減少せると同時に バイアスを増加させることで機能することを示しています。[...]ランダム化が最適レベルを超えて増加すると、分散はわずかに減少しますが、バイアスは大幅に増加します。

いつものように特効薬はありません。


Pierre Geurts、Damien Ernst、Louis Wehenke。「非常にランダム化されたツリー」


3
ノイズの多い機能が多数ある場合、ETが少し悪化するという参照(経験的または理論的)はありますか?または、これは経験に基づいていますか?
-ramhiser

1
私の経験では、逆のことが言えます。エクストラツリーは、多くのノイズの多い機能のほうが優れています。これを機能させるには、大きなフォレスト(多くの推定量、sklearnのn_estimators)が必要であり、各分割で考慮される機能の数(sklearnのmax_features)を調整する必要があるという注意事項があります。1つのエクストラツリーは、1つのランダムフォレストツリーよりも過剰適合しますが、多くのエクストラツリーがある場合は、過剰適合ではなく異なる方法で過剰適合する傾向があります。私は、多くの場合、最大3000人の推定量まで大幅に改善されます。
デンソン

@ramhiserが指摘したように、ETはノイズの多い機能がある場合でも高いパフォーマンスを維持しているようです。回答に参照を追加できますか?
ゴンカロペレスがモニカをサポート

3

答えは、それが依存するということです。問題については、ランダムフォレストと追加ツリーの両方を試すことをお勧めします。大規模なフォレスト(1000-3000ツリー/推定器、sklearnのn_estimators)を試して、各分割で考慮されるフィーチャの数(sklearnのmax_features)と、分割ごとの最小サンプル(sklearnのmin_samples_split)および最大ツリー深度( sklearnのmax_depth)。ただし、オーバーチューニングはオーバーフィッティングの一種である可能性があることに留意しください

以下は、非常にノイズの多いデータで余分なツリーが有用であることが判明した個人的に取り組んだ2つの問題です。

大規模でノイズの多い海底特徴セットの機械学習分類のための決定フォレスト

サンプルを貼り付けた効率的な分散タンパク質障害予測


2

答えてくれてありがとう!まだ疑問があるので、数値シミュレーションをいくつか実行して、これら2つの方法の動作についてより多くの洞察を得ました。

  • 余分なツリーは、ノイズの多い機能がある場合でも高いパフォーマンスを維持するようです。

次の図は、ターゲットに関係のないランダムな列がデータセットに追加されたときのパフォーマンス(クロス検証で評価)を示しています。ターゲットは、最初の3列の単なる線形結合です。 無関係な変数が存在する場合のランダムフォレストと追加ツリー

  • すべての変数が関連する場合、両方の方法が同じパフォーマンスを達成するようです。

  • 余分なツリーは、ランダムフォレストよりも3倍速いようです(少なくとも、scikitでの実装を学習します)

ソース

記事全文へのリンク:ランダムフォレストvsエキストラツリー


リンクされた記事から:「青はランダムフォレストからの結果を示し、赤は追加のツリーを示しています。」
tomsv
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.