2
いつ連続的な独立変数/機能を離散化/ビン化すべきか、そうすべきではないのか?
いつ独立変数/機能を離散化/ビン化する必要がありますか? 質問に答える私の試み: 一般に、ビニングは情報を失うため、ビン化するべきではありません。 ビニングは、実際にはモデルの自由度を高めているため、ビニング後に過剰適合を引き起こす可能性があります。「高バイアス」モデルがある場合、ビニングは悪くないかもしれませんが、「高分散」モデルがある場合、ビニングを避ける必要があります。 使用しているモデルによって異なります。それが線形モードであり、データに多くの「外れ値」がある場合、ビニング確率が優れています。ツリーモデルがある場合、外れ値とビニングはあまりにも大きな違いを生みます。 私は正しいですか?そして他に何? この質問は何度も聞かれるべきだと思ったが、これらの投稿だけでは履歴書で見つけることができない 連続変数をビン化する必要がありますか? 連続予測変数を分割することの利点は何ですか?