CHAID vs CRT(またはCART)


23

約20の予測変数(いくつかのカテゴリを含むカテゴリ)を含むデータセットでSPSSを使用して決定木分類を実行しています。CHAID(カイ二乗自動相互作用検出)およびCRT / CART(分類および回帰ツリー)は、異なるツリーを提供しています。誰もがCHAIDとCRTの相対的なメリットを説明できますか?あるメソッドを他のメソッドよりも使用することの意味は何ですか?

回答:


23

いくつかのプロパティをリストし、後でその価値について評価を示します。

  • CHAIDはデフォルトで多方向分割を使用します(多方向分割は、現在のノードが3つ以上のノードに分割されることを意味します)。これは望ましい場合と望ましくない場合があります(セグメントの改善や解釈の容易化につながる可能性があります)。ただし、ノード内のサンプルサイズが間引かれるため、ツリーの深さが減少します。セグメンテーションの目的で使用すると、CHAIDが適切に機能するために大きなサンプルサイズが必要になるとすぐに逆火になります。CARTはデフォルトでバイナリ分割を行います(各ノードは2つのドーターノードに分割されます)。
  • CHAIDは、カテゴリ化された/離散化されたターゲットで動作することを目的としています(XAIDはリグレッション用でしたが、それ以降はマージされている可能性があります)。CARTは間違いなく回帰と分類を行うことができます。
  • CHAIDは事前剪定のアイデアを使用します。ノードは、有意性基準が満たされた場合にのみ分割されます。これは、カイ二乗検定は小さなサンプルではほとんどパワーを持たないため、大きなサンプルサイズを必要とする上記の問題と関連しています(複数のテストのボンフェローニ補正により効果的にさらに削減されます)。一方、CARTは大きなツリーを成長させた、ツリーを後の剪定して小さなバージョンに戻します。
  • したがって、CHAID は最初から過剰適合防止しようとします(重要な関連性があるのは分割のみです)が、ツリーがプルーニングされない限り、CARTは容易に過剰適合します。一方、これにより、CARTはCHAIDよりもサンプル内およびサンプル外でパフォーマンスが向上します(特定のチューニングパラメーターの組み合わせに対して)。
  • 私の意見で最も重要な違いは、CHAIDでの分割変数と分割ポイントの選択は、CARTほど混乱が少ないということです。これは、ツリーを予測に使用する場合はほとんど関係ありませんが、ツリーを解釈に使用する場合は重要な問題です。アルゴリズムのこれら2つの部分が高度に混同されているツリーは、「変数選択に偏りがある」(不幸な名前)と言われています。つまり、分割変数の選択では、多くの分割が可能な変数(メトリック予測子など)が優先されます。その意味で、CARTは非常に「偏り」があり、それほど多くはありません。
  • サロゲートスプリットでは、CARTは欠損値の処理方法を知っています(サロゲートスプリットとは、予測変数の欠損値(NA)では、アルゴリズムはプライマリスプリット変数ほど「良好」ではないがプライマリによって生成されるスプリットを模倣する他の予測変数を使用することを意味しますスプリッター)。CHAIDにはそのようなことはありません。

したがって、サンプルがある程度の大きさで、解釈の側面がより重要である場合、CHAIDを使用することをお勧めします。また、多方向分割または小さなツリーが必要な場合は、CHAIDの方が適しています。一方、CARTはうまく機能する予測マシンなので、予測が目的であれば、CARTに行きます。


1
(+1)。素敵な概要。「マルチウェイスプリット」と「サロゲートスプリット」とは何ですか。スプリットが二分されていない場合、マルチウェイスプリットですか?
COOLSerdash

1
@Momo:最新の回答をありがとう。多方向分割に関して、私はHastieらからの次の興味深い声明を見つけました。(2013)統計学習の要素:「[...]この[multiway splits]は役立つことがありますが、一般的な戦略としては適切ではありません。[...] multiway splitsは一連のバイナリによって実現できるため分割、後者が優先されます。」これは彼らが述べているほどはっきりしているのだろうか(私は機械学習の経験はあまりない)、一方で彼らの本は参考文献と考えられている。
COOLSerdash

はい、一連のバイナリ分割はマルチウェイ分割と同じにすることができます。それらは異なる場合もあります。私は声明に同意する傾向があります。注意すべきもう1つの点は、徹底的な検索で分割ポイントを探すことは、特定のノードのバイナリ分割に対してアルゴリズム的に単純で高速であることです。
モモ

非常に完全な答え。私はCHAIDを100.000以上のデータベースを持つ調査で使用しました。このレベルでは、分類が非常に正確に行われますが、異なるパーティション数とツリーのより低いレベルで何度か試行することをお勧めします(SPSSソフトウェアでは、このパラメーターを以前に決定できます)。これは、CHAIDが複数のグループ(マルチスプリット)を持つ分類ツリーを生成し、データベースが大きい場合はさらに悪いためです。最終的なツリーは巨大になるでしょう。最後に、データベースのサンプル分割の「内部コントロール」を使用することを忘れないでください。グーのSPSS分類木マニュアル利用できるも参照してください
user35523

クエストはどうですか??
マドゥサリーン

8

すべての単一ツリーメソッドには、結果に大きな不安定性をもたらす膨大な数の多重比較が含まれます。そのため、満足のいく予測判別を行うには、何らかの形のツリー平均化(バギング、ブースティング、ランダムフォレスト)が必要です(ツリーの利点を失うことを除いて-解釈可能性)。単一の木の単純さは、ほとんど幻想です。これらは、データの複数の大きなサブセットに対してツリーをトレーニングすると、ツリー構造間の大きな不一致が明らかになるという意味で間違っているため、単純です。

私は最近のCHAID方法論を見たことはありませんが、CHAIDの元の化身は、データの過剰な解釈における素晴らしい運動でした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.