多くの出典は、統計分析の前に連続変数の離散化(分類)の多くの負の結果があることを示唆しています(以下の参考文献のサンプル[1]-[4])。
逆に[5]は、連続変数が離散化された場合に一部の機械学習手法がより良い結果を生成することが知られていることを示唆しています(教師付き離散化手法のパフォーマンスが高いことにも注意)。
統計的な観点から、この慣行に広く受け入れられているメリットや正当化があるかどうか知りたいのですが。
特に、GLM分析内の連続変数を離散化する正当な理由はありますか?
[1] Royston P、Altman DG、Sauerbrei W.重回帰で連続予測子を二分する:悪い考え。Stat Med 2006; 25:127-41
[2] Brunner J、オースティンPC。独立変数がエラーで測定された場合の重回帰におけるタイプIエラー率のインフレ。カナダ統計ジャーナル2009; 37(1):33-46
[3]アーウィンJR、マクレランドGH。連続予測子変数を二分することの負の結果。ジャーナルオブマーケティングリサーチ2003; 40:366–371。
[4]ハレルJr FE。連続変数の分類によって引き起こされる問題。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous、2004。2004年6.9。にアクセス
[5] Kotsiantis、S。Kanellopoulos、D.「離散化手法:最近の調査」。GESTS International Transactions on Computer Science and Engineering 32(1):47–58。