ランダムフォレストツリーの優れたコスト関数はどれですか:Giniインデックスまたはエントロピー?


12

ランダムフォレストツリーの優れたコスト関数はどれですか:Giniインデックスまたはエントロピー?

Clojureでランダムフォレストを実装しようとしています。

回答:


9

Tanによるデータマイニングの概要で見つけたように。al:

研究では、不純物尺度の選択が決定木誘導アルゴリズムのパフォーマンスにほとんど影響しないことが示されています。これは、多くの不純物測定値が互いに非常に一貫しているためです[...]。実際、ツリーの剪定に使用される戦略は、不純物測定の選択よりも最終ツリーに大きな影響を与えます。

したがって、CARTなどのGiniインデックスまたはC4.5などのエントロピーを使用することを選択できます。

Quinlan:C4.5 Programs for Machine Learningのよく書かれた本を簡単にたどることができるため、エントロピー、より具体的にはC4.5のゲイン比を使用します。


3
ちょっとしたコメント-エントロピーはログを使用します。これは計算時間の問題になる可能性があります。

8
この発言は純粋な決定木に関するものであり、ランダムフォレストに関するものではありません。最適なツリーを構築しようとしているわけではないため、通常、ランダムフォレストでツリーを剪定しません。そのため、より重要なもの、つまりプルーニングまたは不純物測定について話すのは誤解を招くように思われます。目標は、ランダムフォレストで使用する最適なツリーを見つけることです。
チャンホーSuh
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.