クーンとジョンソンによる応用予測モデリングでは、著者は次のように書いています。
最後に、これらのツリーは選択バイアスの影響を受けます。個別の値の数が多い予測子は、より詳細な予測子よりも優先されます(Loh and Shih、1997; Carolin et al。、2007; Loh、2010)。LohとShih(1997)は次のように述べています。「危険はデータセットが情報変数とノイズ変数の混合で構成され、ノイズ変数は情報変数よりも多くの分割を持っている場合に発生します。次に、ツリーの最上位ノードを分割するためにノイズ変数が選択される可能性が高くなります。剪定を行うと、誤解を招くような構造のツリーが生成されるか、まったくツリーが生成されません。」
クーン、マックス; ジョンソン、ケル(2013-05-17)。応用予測モデリング(Kindleロケーション5241-5247)。スプリンガーニューヨーク。キンドル版。
彼らはさらに、公平な樹木を構築するためのいくつかの研究について説明します。たとえば、LohのGUIDEモデルです。
CARTフレームワーク内で可能な限り厳密にとどまって、この選択バイアスを最小限に抑えるために私にできることはあるのでしょうか?たとえば、おそらく、カーディナリティの高い予測子をクラスタリング/グループ化することは1つの戦略です。しかし、グループ化をどの程度行うべきでしょうか?30レベルの予測子がある場合、10レベルにグループ化する必要がありますか?15?5?