ID3やC4.5などの標準的なディシジョンツリーアルゴリズムには、連続フィーチャのカットポイントを選択するためのブルートフォースアプローチがあります。すべての値は、可能なカットポイントとしてテストされます。(テスト済みとは、たとえば、情報ゲインがすべての可能な値で計算されることを意味します。)
多くの継続的な機能と多くのデータ(したがって、各機能の値が多い)があるため、このアプローチは非常に非効率的です。
これを行うためのより良い方法を見つけることは、機械学習のホットなトピックだと思います。実際、私のGoogle Scholar検索でいくつかの代替アプローチが明らかになりました。k-meansによる離散化など。次に、特定のドメインの特定の問題に取り組む多くの論文があるようです。
しかし、最近のレビューペーパー、ブログの投稿、または本に、離散化の一般的な手法の概要を説明しているものはありますか?見つかりませんでした...
または、おそらくあなたの1人がこのトピックの専門家であり、簡単な概要を書いてくれます。それは非常に役に立ちます!