CARTモデルを堅牢にすることはできますか？

私のオフィスの同僚は、今日、「ツリーモデルは極端な観察に巻き込まれるため、良くない」と私に言いました。

ここで検索した結果、このスレッドは基本的にクレームをサポートしています。

それは私を疑問に導きます-どのような状況でCARTモデルは堅牢になりますか、そしてそれはどのように示されますか？

回答:

いいえ、現在の形式ではありません。問題は、凸損失関数を外れ値による汚染に対して堅牢にすることができないことです（これは70年代以来よく知られている事実ですが、定期的に再発見され続けています。たとえば、最近の再発見についてはこのペーパーを参照してください）：

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

さて、回帰木の場合、CARTが周辺（または単変量の投影）を使用するという事実を使用できます。sd基準がより堅牢な対応物（MADまたはそれ以上）で置き換えられたCARTのバージョンを考えることができます。 Qn推定量）。

編集：

私は最近、上記のアプローチを実装した古い論文に出くわしました（MADの代わりに堅牢なM推定器を使用）。これにより、CART / RFの「y」外れ値にロバスト性が付与されます（ただし、モデルのハイパーパラメーターの推定に影響する設計スペースにある外れ値には影響しません）。

Galimberti、G.、Pillati、M。、およびSoffritti、G。（2007）。M推定量に基づく堅牢な回帰ツリー。Statistica、LXVII、173–190。

— user603
ソース

ありがとうkwak。この記事は、ブースティング方法について話しているようです。彼らが提示する結果は、CARTモデルの単純な分類器の場合に当てはまりますか？（表面的にはそのように聞こえますが、実際に知るのに十分な記事を読んでいませんでした）

— タルガリリ

彼らが提示する結果は、任意の凸損失関数に当てはまり、Tukeyによって最初に議論されました。要約すると、ノードの品質を定量化するために使用される広がりの尺度（Giniまたはエントロピー）は、外れ値（つまり、データセットでラベルが誤っている観測値）による汚染に敏感です。この問題は、建物と剪定段階の両方に影響します。誤ってラベルが付けられた観測によるデータセットの汚染は、通常、結果のツリーが非常に複雑になります（これは自分で簡単に確認できます）。

— user603

クワックありがとうございます！また、堅牢な損失関数はありませんか？

— タルガリリ

凸損失関数はありません。非凸損失関数でできることの例については、この記事「最小共分散行列式推定量の高速アルゴリズム」を参照してください（分類とは関係ありませんが、読む価値があります）。

— -user603

@Tal CARTは、「ピボット分類子」（何かよりも大きい属性または設定された属性値など、各ツリーノードに存在する基準）のブーストに相当します。

ブライマンのバギングの使用を検討するか、ランダムフォレストます。1つの良いリファレンスは、Breimanの「Bagging Predictors」（1996）です。統計ハンドブックのClifton Suttonの「分類および回帰ツリー、バギング、ブースティング」にも要約されています。

randomForestパッケージに関するAndy LiawとMatthew Wiener R Newsの議論もご覧ください。

— シェーン
ソース

パーティーを台無しにすることではありませんが、ランダムフォレストが外れ値による汚染にどのように堅牢性を提供することになっているのかは謎です。

— user603

@kwakそれでも、これは良い答えです。RFのツリーにはセット全体が表示されないため、それらの多くは汚染されません。さらに良いことには、どの葉がOOBケースを行うかを追跡することで、誤ってラベル付けされたオブジェクトを見つけ、それらを排除できます。（今思い出すと、これはブライマンのRFに関する論文で言及されています）。

問題は、外れ値があると「悪い」（つまり汚染された）ツリーが良い（汚染されていない）ツリーよりも良く見えるということです。これはマスキング効果と呼ばれ、シミュレートされたデータを使用して簡単に複製できます。この問題は、ツリーの評価に使用する基準自体が外れ値に対して堅牢ではないために発生します。私は原理主義のムラーのように聞こえ始めていますが、使用するすべてのツールが堅牢にされていない限り、手順は外れ値に敏感であることが示される可能性があります（したがって堅牢ではありません）。

— user603

Rの「gbm」パッケージ（一般化された勾配ブースティング）をチェックアウトすると、「ブースティング」は必ずしも二乗誤差を意味しない損失関数を使用します。これは、関数 'gbm（）'の 'distribution'引数に表示されます。したがって、ブースティングによるツリーの精緻化は、M-estimatorの動作と同様に、外れ値に対して耐性があります。

あなたはここから始めるかもしれません。

別のアプローチは、通常の方法でツリーを構築することです（SSEに基づくパーティション）が、ロバストな適合尺度でクロス検証を使用してツリーを剪定します。rpartのxpredは（さまざまな異なるツリーの複雑さの）相互検証された予測子を提供し、平均絶対値などのエラーの独自の尺度を適用できると思います。

— アラスカロン
ソース