連続変数の教師なし離散化の正当化は何ですか?


8

多くの出典は、統計分析の前に連続変数の離散化(分類)の多くの負の結果があることを示唆しています(以下の参考文献のサンプル[1]-[4])。

逆に[5]は、連続変数が離散化された場合に一部の機械学習手法がより良い結果を生成することが知られていることを示唆しています(教師付き離散化手法のパフォーマンスが高いことにも注意)。

統計的な観点から、この慣行に広く受け入れられているメリットや正当化があるかどうか知りたいのですが。

特に、GLM分析内の連続変数を離散化する正当な理由はありますか?



[1] Royston P、Altman DG、Sauerbrei W.重回帰で連続予測子を二分する:悪い考え。Stat Med 2006; 25:127-41

[2] Brunner J、オースティンPC。独立変数がエラーで測定された場合の重回帰におけるタイプIエラー率のインフレ。カナダ統計ジャーナル2009; 37(1):33-46

[3]アーウィンJR、マクレランドGH。連続予測子変数を二分することの負の結果。ジャーナルオブマーケティングリサーチ2003; 40:366–371。

[4]ハレルJr FE。連続変数の分類によって引き起こされる問題。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous、2004。2004年6.9。にアクセス

[5] Kotsiantis、S。Kanellopoulos、D.「離散化手法:最近の調査」。GESTS International Transactions on Computer Science and Engineering 32(1):47–58。


2
他のものと比較してそれらを離散化しますか?代替案が予測子と応答の間の関係を線形として扱うと見なされている場合、離散化がより良い適合をもたらすことができるのは当然のことです。こちらをご覧ください
Scortchi-モニカを回復

それは、「より良い」とは何かに関するさまざまな基準に関連している可能性があります。
Glen_b-モニカを2014

回答:


8

統計モデルの目的は、未知の根底にある現実をモデル化(近似)することです。自然に連続するものを離散化すると、予測変数の範囲のすべての応答がまったく同じであり、次の間隔で突然ジャンプすることになります。自然界は9.999と10.001のx値の応答に大きな違いがあるのに、9.001と9.999の間に違いがないと信じていますか?私がそのようにもっともらしい働きをしていると私が考えるであろう自然なプロセスを考えることはできません。

これで、非線形の方法で動作する多くの自然なプロセスがあり、予測子の8から9への変化は、10から11への変化とは非常に異なる応答の変化をもたらす可能性があります。したがって、離散化された予測子は、線形関係ですが、それはより多くの自由度が許可されているためです。しかし、多項式やスプラインなど、追加の自由度を許可する方法は他にもあります。これらのオプションを使用すると、ペナルティを適用して特定のレベルの滑らかさを取得し、基になる自然なプロセスのより良い近似を維持できます。


1

編集:私が見ている他の回答の傾向のため、短い免責事項:私の回答は、統計モデリングではなく、機械学習の観点から動機付けされています。

  • Naive Bayesなどの一部のモデルは、連続機能では機能しません。機能を離散化すると、それらを使用して(はるかに)パフォーマンスを向上させることができます。一般に、特徴の「数値」特性に依存しないモデル(ディシジョンツリーが思い浮かぶ)は、離散化が過酷でない限り、あまり影響を受けません。ただし、他のいくつかのモデルは、差別化があまりにも重要である場合、大幅にパフォーマンスが低下します。たとえば、GLMはプロセスからまったく利益を得ません。

  • 場合によっては、メモリ/処理時間が制限要因になると、特徴の離散化によりデータセットを集約し、サイズとメモリ/計算時間の消費量を削減できます。

つまり、計算上制限がなく、モデルが離散特徴を絶対に必要としない場合は、特徴の離散化を実行しないでください。それ以外の場合は、必ず検討してください。


6
変数の数値的な性質を使用しない方法は、いかなる場合でも避けられるべきです。
フランクハレル2014年

1
それは明白な誤りです。ディシジョンツリー、ランダムフォレスト、グラデーションブーストDTはすべて優れたアルゴリズムであり、順序付けを除いて、変数の数値的な性質は考慮されません。Naive Bayesは、基本的な分類タスクにとって十分なツールであることがよくあります。
Youloush 2014年

7
いくつかの誤解があります。最初に、離散化は少なくとも連続予測子の順序的な性質を使用すると仮定します。ありません。次に、事前ビニング(災害)と予測アルゴリズム中のビニング(小規模な災害)を混同します。分類は、予測ではなく最適な決定につながると想定します。出力の分類(予測されたリスク、次に損失関数を適用して最適な決定を行う)ではなく、入力の分類が進むべき道であると想定します。最後に、真のスムーズな関係を不連続にしても問題ないことを意味します。
フランクハレル

3
予測エラーは不正確なスコアリングルールであるため、そのステートメントはMLについて多くのことを述べています。そして、根本的な現実を本当に求めている多くの統計学者を知りません。私たちは、現実のためにさまざまな近似または代用を開発することに満足しています。
フランクハレル2014年

1
PSスムーズな関係は、唯一の予測因子としての時間を含まないほとんどすべてのデータセットの根本的な真実として存在します。明らかに、データポイントは離散的です。これは、スムーズなモデリング手法を選択するかどうかとはまったく関係ありません。
フランクハレル2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.