Andrew Gelmanの再スケーリング方法に基づく回帰係数の解釈


8

バイナリロジスティック回帰モデルには2つの予測子があります。1つはバイナリ、もう1つは連続です。私の主な目標は、同じモデル内の2つの予測子の係数を比較することです。

連続回帰入力変数を標準化するというAndrew Gelmanの提案に出くわしました。

I)最初の提案(2008):連続予測子を2 SDで除算

Original manuscript: 
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

II)更新された推奨事項(2009):連続予測子を1 SDで除算し、バイナリ入力値を(0,1)から(-1、+ 1)に再コード化)。

Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/

結果として生じる係数の適切な解釈は、私にはまだとらえどころのないです:

シナリオ1:両方の予測子が同じモデルで重要である

結果:非変換バイナリY連続予測子:XCONT(1sdで除算)バイナリ予測子:XBIN(値-1または1をとるように再コーディング)

  > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, 
   family=binomial(link="logit")))
  > summary(orfit1c)

   Call:
   glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))

   Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
       -0.9842  -0.6001  -0.5481  -0.5481   1.9849  

       Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
        (Intercept)  -1.8197     0.1761 -10.331  < 2e-16 ***
        XCONT         0.3175     0.1190   2.667  0.00765 ** 
        XBIN          1.0845     0.3564   3.043  0.00234 ** 
        ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

       (Dispersion parameter for binomial family taken to be 1)

       Null deviance: 398.99  on 409  degrees of freedom
       Residual deviance: 385.88  on 407  degrees of freedom
       AIC: 391.88

シナリオ2:同じモデルではど​​ちらも重要ではありません(ただし、2つの異なるモデルで別々に入力すると、係数はどちらも重要になります)

       Call:
      glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link = 
       "logit"))

               Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
          -1.0090  -0.6265  -0.5795  -0.5795   1.9573  

            Coefficients:
                   Estimate Std. Error z value Pr(>|z|)    
       (Intercept)  -1.7562     0.1835  -9.570   <2e-16 ***
       XCONT2         0.2182     0.1318   1.656   0.0977 .  
       XBIN2        0.6063     0.3918   1.547   0.1218    
                         ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

          (Dispersion parameter for binomial family taken to be 1)

          Null deviance: 398.99  on 409  degrees of freedom
          Residual deviance: 390.01  on 407  degrees of freedom
          AIC: 396.01

質問:元のスケーリング方法では、「連続予測子の1単位の変化は、その予測子の2つの標準偏差をカバーする」と説明されていました。

更新されたスケーリング方法について、シナリオ#1の解釈で私は正しいですか?

(1)連続予測子の1単位の変更は、XCONTの1標準偏差をカバーします

(2)そして、XCONTの1 SDのこの変化は、バイナリ予測子(XBIN)の1単位の変化(つまり、不在または存在)に相当します。

(3)したがって、XBINの1 SDの変化はYBINの1ユニットの増加を予測しますが、YCONTの1/3ユニットの増加はYBINの1ユニットの増加を予測しますか?

質問

  • 1-3に概説されている解釈には修正が必要ですか?バイナリ結果変数が再コード化されなかったので、Xの1ユニットの変更がバイナリ結果(0または1)の1​​ユニットの変更を予測すると、私はまだ言えるでしょうか?

  • 特に連続予測子とバイナリ予測子の2つの係数を比較しようとしたときに、結果について他に何が言えるでしょうか?

回答:


-1

(1)は少しぎこちなく述べられており、あなたが何を言っているのか正確にはわかりません。XCONTパラメータの推定を次のように解釈します。

XCONTの平均を1標準偏差上回った観測では、YBINが約32%高くなります。

XBINパラメータの推定値を解釈するときは、XCONTの平均で解釈していることに注意してください。

Richard McElreathは、Statistical Rethinkingでこの再スケーリングの例を使用しています。


2
この答えは意味がありません。
マイケルR.チェニック2018年

@MichaelChernickは、元の質問に対するあなたの考えに感謝します
ksroogl

私はゲルマンの理論的根拠に精通していません。彼がバイナリ値0を-1に変更する理由がわかりません。
マイケルR.シェニック

私はそれが再スケーリングバイナリレベルが0の周りに対称にすることができるようにだと思う@MichaelChernick
shadowtalker

それは確かにうまくいくでしょう。なぜ0を中心とした対称性が良いことなのですか?
Michael R. Chernick
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.