1
CART:不純物減少の増加が等しい場合の分割に最適な予測子の選択?
私の質問は分類木を扱っています。Irisデータセットの次の例を考えてみます。 最初の分割に最適な予測子を手動で選択したい。CARTアルゴリズムによると、分割を行うための最良の機能は、パーティションの不純性の減少を最大化する機能であり、ジニゲインとも呼ばれます。 G i n i G a i n (N、X)= G i n i (N)− | N1|| N|G i n i (N1)− | N2|| N|G i n i (N1)G私ん私Ga私ん(N、バツ)=G私ん私(N)−|N1||N|G私ん私(N1)−|N2||N|G私ん私(N1)GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{1}) ここで、与えられた機能であり、分割がなされるべきでノードであり、と分割することによって作成された2つのつの子ノードである。は、ノードの要素数です。バツバツXNNNN1N1N_{1}N2N2N_{2}NNN| 。||。|\lvert . \rvert そして、。ここで、はノード内のカテゴリの数です KG i n …