1
連続入力変数を使用したディシジョンツリー
決定木を構築するとき、入力変数を徹底的に分割し、統計的検定アプローチまたは不純物関数アプローチによって「最良の」分割を見つけることが知られています。 私の質問は、連続変数を入力変数として使用する場合(いくつかの重複する値のみ)、可能な分割の数が非常に大きくなり、「最良の」分割に時間がかかることを見つけることです。データサイエンティストはそれをどのように扱いますか? 人々が入力のレベルのクラスタリングを行って可能な分割を制限することになるいくつかの資料を読みました。(例)。しかし、彼らはそれがどのように行われるかを説明していません。単変量変数をクラスター化するために何に基づいていますか?詳細についてのリソースはありますか、または誰でも詳細に説明できますか? ありがとう!
8
cart