デシジョンツリーに関連する2つの質問があります。
連続属性がある場合、分割値をどのように選択しますか?
例:Age =(20,29,50,40 ....)
値を持つ連続属性があると想像してください。をで分割するときに最小ゲインを得るために、分割点を見つけるアルゴリズムを作成するにはどうすればよいですか?R v f v f > v
デシジョンツリーに関連する2つの質問があります。
連続属性がある場合、分割値をどのように選択しますか?
例:Age =(20,29,50,40 ....)
値を持つ連続属性があると想像してください。をで分割するときに最小ゲインを得るために、分割点を見つけるアルゴリズムを作成するにはどうすればよいですか?R v f v f > v
回答:
分割ポイントを見つけるために、値が並べ替えられ、隣接する値の間の中点が何らかのメトリック、通常は情報ゲインまたはジニ不純物の観点から評価されます。たとえば、4つの例があり、年齢変数の値が 20、29、40、50)であるとしましょう。値の中間点が評価され、どの分割でもトレーニングデータで最高の情報ゲイン(または使用しているメトリック)が得られます。(24.5 、34.5 、45 )
異なるクラスの例の間にある分割点のみをチェックすることにより、計算時間を節約できます。これは、これらの分割のみが情報の獲得に最適であるためです。