ロジスティック回帰の評価とHosmer-Lemeshow適合度の解釈


24

誰もが知っているように、ロジスティック回帰モデルを評価するには2つの方法があり、それらは非常に異なることをテストしています

  1. 予測力:

    独立変数に基づいて従属変数を予測できる程度を測定する統計を取得します。よく知られたPseudo R ^ 2はMcFadden(1974)とCox and Snell(1989)です。

  2. 適合度の統計

    このテストは、モデルをより複雑にすることでさらに改善できるかどうかを判断します。これは、実際には非線形性または相互作用があるかどうかをテストすることです。

    私のモデルに両方のテストを実装しましたが、
    すでに2次および相互作用が追加されています。

    >summary(spec_q2)
    
    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())
    
     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6

予測される出力は次のとおりです。MaFaddenは0.4004であり、0.2〜0.4の間の値は、モデルの非常に良好な適合性を示すために使用する必要があります(Louviere et al(2000)、Domenich and McFadden(1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

および適合度の統計:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

私の理解では、GOFは実際に次の帰無仮説と対立仮説をテストしています。

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

私のモデルは相互作用を追加したため、すでに非線形性とp値がH0を拒否する必要があることを示しているため、モデルには相互作用、実際には非線形性が必要であるという結論に達しました。私の解釈が正しいことを望み、事前にアドバイスをありがとう、ありがとう。



2
HLテストのp値よりも、基礎となるテーブルを見る方が適切です。また、モデルの残差のプロットでも。これにより、問題の場所が表示されます。
確率論的

回答:


26

対処すべきいくつかの問題があります。

  • R2R2R2
  • Hosmer-Lemeshowテストは、2次効果などの特定の適合不足がないためではなく、全体的なキャリブレーションエラーのためです。適切に過適合を考慮せず、ビンの選択や分位数の計算方法に任意であり、しばしば低すぎるパワーを持ちます。
  • これらの理由により、Hosmer-Lemeshowテストは推奨されなくなりました。Hosmerらは、R rmsパッケージresiduals.lrm関数で実装された、より優れた1つのdfオムニバス適合度テストを持っています。
  • あなたの場合、適合度は、すべての平方項と相互作用項の寄与を共同テスト(「チャンク」テスト)することで評価できます。
  • ただし、モデルを指定して(特に回帰スプラインを使用した線形性の仮定の緩和に関して)フロントフィットする可能性を高め、オーバーフィットを推定するためにブートストラップを使用し、オーバーフィット補正された高解像度の滑らかな検量線を取得して絶対値を確認することをお勧めします正確さ。これらは、R rmsパッケージを使用して行われます。

最後の点では、モデルは柔軟であるという哲学(とにかくサンプルサイズによって制限される)を好み、「適合の欠如」よりも「適合」に専念することを好みます。


2
R2

1R2

4

ウィキペディアから:

このテストでは、観測されたイベントレートがモデル母集団のサブグループで予想されるイベントレートと一致するかどうかを評価します。Hosmer–Lemeshowテストは、サブグループを適合リスク値の十分位として特定します。サブグループで予想されるイベント率と観測されるイベント率が類似しているモデルは、適切に較正されたと呼ばれます。

その意味:モデルのyスコアを付けてモデルを構築した後、実際のイベントレートと同様に10単位で分布しているかどうかをクロスチェックする必要があります。

したがって、仮説は

  • H0
  • H1

したがって、p値が.05未満の場合、それらは十分に分散されておらず、モデルを改良する必要があります。

これがあなたの質問のいくつかに答えることを望みます。


3

これは@FrankHarrellの回答に続いてかなり意味がありませんが、H–Lテストのファンは、その結果から、二次項といくつかの 2次相互作用を含めたにもかかわらず、モデルがまだかなり適合していないことを示し、さらに複雑なモデルが適切です。単純な1次モデルではなく、指定したモデルの正確な適合をテストしています。

†完全な2次モデルではありません。3つの相互作用があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.