私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか?ほとんどの標準アルゴリズム(C4.5、CARTなど)はバイナリツリーのみをサポートしていますか?私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。
子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。
私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか?ほとんどの標準アルゴリズム(C4.5、CARTなど)はバイナリツリーのみをサポートしていますか?私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。
子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。
回答:
これは主に技術的な問題です。バイナリの選択に限定しないと、ツリー内の次の分割の可能性が多すぎます。したがって、あなたはあなたの質問のすべての点で間違いなく正しいです。
ほとんどのツリー型アルゴリズムは段階的に機能するため、可能な限り最高の結果が得られるとは限りません。これは、1つの追加の警告です。
最も実用的な目的では、ツリーの構築/剪定中ではありませんが、2種類の分割は、それらが互いに直後に現れることを考えると、同等です。
子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、1つの3ウェイスプリットと同じものではありません
ここで何を意味するのか分かりません。多方向の分割は、一連の双方向の分割として表すことができます。3分割の場合、最初にAとBをCに分割し、次にBからAを分割することにより、A、B、Cに分割できます。
特定のアルゴリズムはその特定のシーケンスを選択しない場合があります(特に、ほとんどのアルゴリズムのように貪欲な場合)。また、ランダムフォレストまたはブーストされたツリーのようにランダム化または段階的な手順を実行すると、正しい分割シーケンスを見つける可能性が高くなります。他の人が指摘しているように、多方向分割は計算コストが高いため、これらの選択肢を考えると、ほとんどの研究者はバイナリ分割を選択したようです。
お役に立てれば
意思決定ツリーと分割(バイナリ対そうでない)の使用に関して、私は非バイナリ分割を持つCHAIDのみを知っていますが、他にもある可能性があります。私にとって、非バイナリスプリットの主な用途は、名目変数を多くのレベルで最適にビン化する方法を検討しているデータマイニング演習です。一連のバイナリ分割は、CHAIDによるグループ化ほど有用ではありません。