決定木の連続変数の分割点はどのように選択されますか?


14

デシジョンツリーに関連する2つの質問があります。

  1. 連続属性がある場合、分割値をどのように選択しますか?

    例:Age =(20,29,50,40 ....)

  2. 値を持つ連続属性があると想像してください。をで分割するときに最小ゲインを得るために、分割点を見つけるアルゴリズムを作成するにはどうすればよいですか?R v f v f > vfRvfvf>v

回答:


18

分割ポイントを見つけるために、値が並べ替えられ、隣接する値の間の中点が何らかのメトリック、通常は情報ゲインまたはジニ不純物の観点から評価されます。たとえば、4つの例があり、年齢変数の値が 20、29、40、50)であるとしましょう。値の中間点が評価され、どの分割でもトレーニングデータで最高の情報ゲイン(または使用しているメトリック)が得られます。24.5 34.5 45 2029405024.534.545

異なるクラスの例の間にある分割点のみをチェックすることにより、計算時間を節約できます。これは、これらの分割のみが情報の獲得に最適であるためです。


@timleathartは、OPがRの実装に「スプーンで供給される」ことを期待しています。OPは、Rの実装に関してこれまでに何を試みたのでしょうか。「努力を見せて」OPはどうですか?
mnm

@timleathartしかし、属性fについては通常、f> vで最大の情報ゲインを与えるスプリットvを選択しますが、ここでは最小ゲインを求める質問を見てください。
ウォルドベルハルミア

@timleathart、もっと説明してもらえますか?そのような分割を識別する最適化された最適な方法を知り、情報が得られるかどうかを確認する必要があります。1つの変数に多くの変動があり、他の変数にはほとんど一定があるとしましょう。そのような分割はいくつあるべきですか?
アーピットシソディア

@timeleathartは、urの答えを拡張し、値が(20,21,22,23、45,67,80)の場合、この分割は最適化されません。ここで最小から最大の反復を使用することはできませんか?私の仮定が間違っている場合は修正してください:)
Arpit Sisodia

これは私の混乱を明確にします!
金華王
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.