ランダムフォレストと極端にランダム化されたツリーはどのように異なって分割されますか?


9

ランダムフォレストの場合、一連の機能のジニ不純物またはエントロピーによってノードを分割します。sklearnのRandomForestClassifierでは、Giniまたはエントロピー基準を使用して分割することを選択できます。ただし、Extra-Trees Classifierについて読んだところ、分割にはランダムな値が選択されています(おそらく、GiniやEntropyとは関係ありません)。sklearnのExtraTreesClassifierには、分割にGiniまたはエントロピーを選択するオプションがあります。ここでは少し混乱しています。

回答:


10

ランダムフォレストの1つの反復:

  1. 選択する m 分割フィーチャーの候補セットとしてランダムにフィーチャー
  2. これらの各機能内で、「最良の」カットポイントを見つけます。「最良の」は、Gini /エントロピー/どんな尺度でも定義されます
  3. 今あなたは持っています m最適なカットポイントと組み合わせた機能。分割機能として選択し、Gini /エントロピー/あらゆる指標に関して「最高」のパフォーマンスを持つペアをカットポイント

高度にランダム化されたツリーの1つの反復:

  1. 選択する m 分割フィーチャーの候補セットとしてランダムにフィーチャー

  2. これらの各機能内 Fii1,...,m 間隔から単一のランダムなカットポイントを均一に描く (min(Fi),max(Fi))。この機能のパフォーマンスを、このカットポイントを使用して、ジニ/エントロピー/その他の指標に関して評価します

  3. 今あなたは持っています mランダムに選択されたカットポイントとペアになった機能。分割機能として選択し、Gini /エントロピー/あらゆる指標に関して「最高」のパフォーマンスを持つペアをカットポイント

すばらしい説明、私はこれに苦労してきました、そしてこれはそれを完全に片付けました。
Yu Chen

余分な木で混乱しています。余分なツリーはすべて、機能のランダムなサブセットを描画し、その機能のサブセットからランダムな機能を描画することだと思いました。分割指標に関して最適化を行っていないと思いましたか?
Michael Hsu

w / r / t分割メトリックを最適化しますが、これらの分割メトリックがランダムに選択された後でのみ。scikit-learn自身のドキュメントから:「ランダムフォレストの場合と同様に、候補機能のランダムサブセットが使用されますが、最も特徴的なしきい値を探す代わりに、各候補機能とこれらのランダムに生成されたしきい値の中でしきい値がランダムに描画されます。が分割ルールとして選択された」
クランバード
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.