決定木はほとんど常に二分木ですか?


21

私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか?ほとんどの標準アルゴリズム(C4.5、CARTなど)はバイナリツリーのみをサポートしていますか?私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。

子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。

回答:


18

これは主に技術的な問題です。バイナリの選択に限定しないと、ツリー内の次の分割の可能性が多すぎます。したがって、あなたはあなたの質問のすべての点で間違いなく正しいです。

ほとんどのツリー型アルゴリズムは段階的に機能するため、可能な限り最高の結果が得られるとは限りません。これは、1つの追加の警告です。

最も実用的な目的では、ツリーの構築/剪定中ではありませんが、2種類の分割は、それらが互いに直後に現れることを考えると、同等です。


最初のポイントを拡大するだけです。可能な分割数は指数関数的に増加します。1000個の異なる値を持つ連続変数で分割している場合、999個のバイナリ分割がありますが、999 * 998個の三値分割があります。
ピーターフロム-モニカの復職

2
@Peter実際には、 998/2の1000131=999998/23分割があります。
whuber

5

子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、1つの3ウェイスプリットと同じものではありません

ここで何を意味するのか分かりません。多方向の分割は、一連の双方向の分割として表すことができます。3分割の場合、最初にAとBをCに分割し、次にBからAを分割することにより、A、B、Cに分割できます。

特定のアルゴリズムはその特定のシーケンスを選択しない場合があります(特に、ほとんどのアルゴリズムのように貪欲な場合)。また、ランダムフォレストまたはブーストされたツリーのようにランダム化または段階的な手順を実行すると、正しい分割シーケンスを見つける可能性が高くなります。他の人が指摘しているように、多方向分割は計算コストが高いため、これらの選択肢を考えると、ほとんどの研究者はバイナリ分割を選択したようです。

お役に立てれば


3
はい、A、B、およびCは、最初にA&BとCに分割し、次にAをBから分割することで達成できることを理解しています。私のポイントは、特定のアルゴリズムがその特定のシーケンスを選択しない可能性があることです。
マイケル

2

意思決定ツリーと分割(バイナリ対そうでない)の使用に関して、私は非バイナリ分割を持つCHAIDのみを知っていますが、他にもある可能性があります。私にとって、非バイナリスプリットの主な用途は、名目変数を多くのレベルで最適にビン化する方法を検討しているデータマイニング演習です。一連のバイナリ分割は、CHAIDによるグループ化ほど有用ではありません。


あなたがビニングについて言及したのはおもしろいです。ビニングについて考えることは、私がこの質問について疑問に思うようになった理由です(私は名目変数ではなく数値変数をビニングすることを考えていましたが)。
マイケルマク

@Michael、はい、それでも機能しますが、情報は捨てます。ノミナル変数のスパースレベルを結合する必要がある場合-究極のモデリングがツリータイプのアプローチなしで行われる場合(ロジスティック回帰またはSVMと多くのスパースダミー変数が問題を引き起こす場合)
-B_Miner

0

これを読んでください

実用的な理由(組み合わせの爆発)のために、ほとんどのライブラリはバイナリ分割のある決定木を実装しています。良い点は、それらがNP完全であることです(Hyafil、Laurent、およびRonald L. Rivest。「最適なバイナリ決定ツリーの構築はNP完全です。」情報処理レター5.1(1976):15-17。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.