変数を分類すると、重要ではないものから重要なものに変わります


17

多変量ロジスティック回帰モデルでは重要ではないことが判明した数値変数があります。ただし、グループに分類すると、突然重要になります。これは私には非常に直観に反しています。変数を分類するとき、いくつかの情報を放棄します。

どうすればいいの?

回答:


25

考えられる説明の1つは、結果と予測子の間の関係の非線形性です。

ここに小さな例があります。私たちは、上の均一で、予測に使用[1,1]。結果は、しかし、しない線形予測因子に依存するが、上の正方形の予測因子の:TRUEは、両方のためのより多くの可能性が高いx1x1が、可能性が低いためx0。この場合、線形モデルは重要ではありませんが、予測変数を間隔に分割すると重要になります。

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

ただし、これは予測変数の離散化が最良のアプローチであることを意味しません。(ほとんどありません。)などを使用して非線形性をモデル化する方がはるかに優れています。


離散化が賢明かもしれないいくつかの例はありますか?たとえば、結果にバイナリスイッチが発生する特定のしきい値(18歳など)がある場合。18歳以上の年齢は有意ではないかもしれませんが、18歳以上のバイナリ年齢は有意でしょうか?
ajrwhite

3
@ajrwhite:フィールドに依存します。法律の離散化でしきい値が成文化されているところはどこでも理にかなっています。たとえば、投票行動をモデル化する場合、誰かが18歳で実際に投票する資格があるかどうかをチェックするのは理にかなっています。同様に、ドイツでは、車両税はエンジン排気量に依存し、1700、1800、1900、... 、ほとんどすべての車の変位は1699、1799、... ccm(自己識別型)です。生物学、医学、心理学などの自然科学では、離散化が理にかなっている例を見つけるのに苦労しています。
S.コラッサ-モニカの復職

7

1つの可能な方法は、関係が明らかに非線形である場合です。これが実際に何が起こっているのかを説明することはできません(詳細が欠けている場合)。

自分で確認できます。最初に、変数自体に対して追加の変数プロットを実行できます。また、モデルの因子バージョンで近似効果をプロットすることもできます。説明が正しければ、両者は明らかに非線形のパターンを見るはずです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.