木の選択バイアス


8

クーンとジョンソンによる応用予測モデリングでは、著者は次のように書いています。

最後に、これらのツリーは選択バイアスの影響を受けます。個別の値の数が多い予測子は、より詳細な予測子よりも優先されます(Loh and Shih、1997; Carolin et al。、2007; Loh、2010)。LohとShih(1997)は次のように述べています。「危険はデータセットが情報変数とノイズ変数の混合で構成され、ノイズ変数は情報変数よりも多くの分割を持っている場合に発生します。次に、ツリーの最上位ノードを分割するためにノイズ変数が選択される可能性が高くなります。剪定を行うと、誤解を招くような構造のツリーが生成されるか、まったくツリーが生成されません。」

クーン、マックス; ジョンソン、ケル(2013-05-17)。応用予測モデリング(Kindleロケーション5241-5247)。スプリンガーニューヨーク。キンドル版。

彼らはさらに、公平な樹木を構築するためのいくつかの研究について説明します。たとえば、LohのGUIDEモデルです。

CARTフレームワーク内で可能な限り厳密にとどまって、この選択バイアスを最小限に抑えるために私にできることはあるのでしょうか?たとえば、おそらく、カーディナリティの高い予測子をクラスタリング/グループ化することは1つの戦略です。しかし、グループ化をどの程度行うべきでしょうか?30レベルの予測子がある場合、10レベルにグループ化する必要がありますか?15?5?


こちらが関連する質問と回答です。
dal233

1
CARTは、多くのレベルを持つ因子に対して偏っているだけでなく、サンプルサイズが大きい場合は潜在的に連続変数であることにも留意してください。CARTフレームワーク内にとどまりたい特別な理由はありますか?GUIDEに加えて、条件付き推論ツリーは選択バイアスを回避する別のオプションです。
dmartin 2016年

私の印象は、CART用に書かれた既製のコードがもっとあるということです。さらに、説明を簡単にしたいと思います。
dal233

「CART用に書かれた既成のコード」と言ったとき、CARTのエコシステム全体も意味していました。たとえば、rpart.plotのように。
dal233

?ctreeを実行すると、パーティーパッケージにrpartと同じ機能が多数含まれていることがわかります。欠落データはサロゲート分割でも処理されます
dmartin

回答:


2

あなたのコメントに基づいて、私は条件付き推論フレームワークを使用します。コードは、パーティパッケージのctree関数を使用して、Rですぐに利用できます。公平な変数選択があり、分割を行うタイミングと方法のアルゴリズムはCARTとは異なりますが、ロジックは基本的に同じです。著者が概説しているもう1つの利点(このペーパーを参照)は、過剰適合を避けるためにツリーの剪定についてそれほど心配する必要がないことです。アルゴリズムは実際には、置換テストを使用して分割が「統計的に有意」であるかどうかを判断することにより、これを処理します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.