私は実際にランダムフォレストの実装を書いていますが、質問は(RFに依存しない)決定木に固有のものだと思います。
したがって、コンテキストは、意思決定ツリーにノードを作成しており、予測変数とターゲット変数の両方が連続しているということです。ノードには、データを2つのセットに分割するための分割しきい値があり、各セットの平均ターゲット値に基づいて各サブセットの新しい予測を作成します。これは正しいアプローチですか?
私が尋ねる理由は、バイナリ変数を予測するとき、典型的な(正しい?)アプローチは、各サブセットのデータ行の平均を取らずにデータを0と1のサブセットに分割することだと思うからです。後続の分割はよりきめの細かいサブセットに分割され、各分割結果で平均を取得します(決定ツリーの下で)後続の分割はバイナリ変数ではなく連続変数に作用します(元の値ではなく残留誤差値に作用しているため)ターゲット)。
副次的な質問:2つのアプローチ(バイナリと連続)の違いは重要ですか?または、完全な決定木に対して実際に同じ結果が得られますか?