連続入力変数を使用したディシジョンツリー

決定木を構築するとき、入力変数を徹底的に分割し、統計的検定アプローチまたは不純物関数アプローチによって「最良の」分割を見つけることが知られています。

私の質問は、連続変数を入力変数として使用する場合（いくつかの重複する値のみ）、可能な分割の数が非常に大きくなり、「最良の」分割に時間がかかることを見つけることです。データサイエンティストはそれをどのように扱いますか？

人々が入力のレベルのクラスタリングを行って可能な分割を制限することになるいくつかの資料を読みました。（例）。しかし、彼らはそれがどのように行われるかを説明していません。単変量変数をクラスター化するために何に基づいていますか？詳細についてのリソースはありますか、または誰でも詳細に説明できますか？

ありがとう！

cart

— pe-perry
ソース

ランダムフォレストをトレーニングするアルゴリズムは1つではなく、多数あります。たとえば、ID3、C4.5、CART、CHAID、MARSなどです。あなたの質問への答えは、使用されるアルゴリズムに大きく依存します...

— MaxBenChrist

@MaxBenChrist 1つから2つを選んでください。たとえば、CARTは、入力変数がどのようにクラスター化されるかを説明しますか？ありがとう！

— pe-perry 2016

アルゴリズムはビン/間隔で分割し、最も貪欲な結果を与えるポイントを見つけます。

— HelloWorld 2018

一般的な方法は、特定のビンのみを分割ポイント/しきい値としてチェックすることです。これはあなたが投稿したプレゼンテーションの著者が言及しているものだと思います。連続入力確率変数があるとしましょう $X$

[1,3,4,6,2,5,18,10、-3、-5]

$X$

[-5、-3、1、2、3、4、5、6、10、18]

データをビンに「クラスター化」します

[-5、-3]、[1,2]、[3,4]、[5,6]、[10,18]

したがって、可能な分割点として-1、2.5、4.5、および8をチェックするだけで済みます（ビン間を線形補間します）。

次のペーパーでは、テストする分割ポイントの選択方法に関する3つのルールを比較しています。あなたが探しているものだと思います。

@article {chickeringefficient、title = {ディシジョンツリー内の動的分割ポイントの効率的な決定}、author = {Chickering、David MaxwellおよびMeek、ChristopherおよびRounthwaite、Robert}}

— MaxBenChrist
ソース