プロットの解釈（glm.model）

「残差対適合」、「通常のq-q」、「スケール位置」、および「残差対レバレッジ」プロットの解釈方法を教えてもらえますか？二項GLMをフィッティングし、保存してからプロットします。

— 夏
ソース

通常の線形回帰を扱うときに、これらのプロットを解釈する方法を知っていますか？それが出発点になるはずだからです。

— スティーブS 14年

回答:

R明確なplot.glm()メソッドはありません。モデルを近似しglm()て実行するとplot()、線形モデルに適した？plot.lmを呼び出します（つまり、正規分布誤差項を使用）。

：一般的には、（少なくとも、線形モデルの場合）、これらのプロットの意味は、様々な既存例えばCV上のスレッド（で学ぶことができるの残差対フィット：;いくつかの場所でのQQプロット1、2、3、スケール、場所、残差vsレバレッジ）。ただし、問題のモデルがロジスティック回帰の場合、これらの解釈は一般に有効ではありません。

より具体的には、プロットはしばしば「おかしく見える」ため、モデルが完全に正常な場合にモデルに何らかの問題があると人々に信じ込ませます。モデルが正しいことがわかっているいくつかの簡単なシミュレーションでこれらのプロットを見ると、これを確認できます。

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

次に、取得するプロットを見てみましょうplot.lm()。

ここに画像の説明を入力してください

プロットResiduals vs FittedとScale-Locationプロットは両方ともモデルに問題があるように見えますが、問題がないことはわかっています。線形モデルを対象としたこれらのプロットは、ロジスティック回帰モデルと併用した場合、しばしば誤解を招く可能性があります。

別の例を見てみましょう。

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

ここに画像の説明を入力してください

これで、すべてのプロットが奇妙に見えます。

では、これらのプロットは何を示していますか？

Residuals vs Fittedあなたが逃した曲線的な傾向がある場合、プロットは、例えば、あなたが見ることができます。しかし、ロジスティック回帰の適合は本質的に曲線であるため、残差の見た目がおかしい傾向があります。
このNormal Q-Qプロットは、残差が正規分布しているかどうかを検出するのに役立ちます。しかし、モデルが有効であるために逸脱残差を正規分布する必要はありません。そのため、残差の正規性/非正規性は必ずしも何も伝えません。
このScale-Locationプロットは、不均一分散を識別するのに役立ちます。しかし、ロジスティック回帰モデルは本質的にほぼ異分散です。
Residuals vs Leverageあなたが可能な外れ値を識別するのに役立ちます。ただし、ロジスティック回帰の外れ値は、必ずしも線形回帰の場合と同じようには現れないため、このプロットはそれらを識別するのに役立つ場合とそうでない場合があります。

ここでの簡単な教訓は、これらのプロットを使用して、ロジスティック回帰モデルで何が起こっているのかを理解するのが非常に難しいことです。かなりの専門知識がない限り、ロジスティック回帰を実行するときにこれらのプロットをまったく見ないのがおそらく最善です。

— gung-モニカの復職
ソース

良い悲しみこれは驚くべき反応です。

— d8aninja

@gungそれがglmである場合、私たちに何ができるかを言っていただけますか？QQ、Residual vs Fittedに代わるものはありますか？たとえば、私は、ポアソンリンクGLMをプロットしたが、それは良いフィットだ場合、私は分析する方法がわからない

— GRS

@GRS、これを読んでみてください。

— GUNG -復活モニカ

@あなたの答えはすべて詳細かつ明確です。このサイトを含む複数のソースから読むこととは別に、診断プロットを理解するための「かなりの専門知識」を得るために、1つか2つの良い本/サイトを参照できますか？練習と経験だけで得られるスキルはほとんどないことを理解していますが、詳細が詳細に説明されている特定の書籍/ウェブサイトを参照できれば、非常に役立ちます。

— ニシャアローラ博士

@DrNishaArora、私が知っていることではありません。LRに関連する本がいくつかありますが、これらのプロットに多くの時間を費やすことはありません。理由は述べています。

— gung-モニカの復職

残差vs適合-強いパターン（軽度のパターンは問題ではありません。@ gungの答えを参照）はなく、外れ値はありません。残差はゼロ付近でランダムに分布する必要があります。
通常のQQ-残差は対角線に沿って移動する必要があります。つまり、正規分布になります（QQプロットについてはwikiを参照してください）。このプロットは、それらがほぼ正常かどうかを確認するのに役立ちます。
スケール位置-ご覧のとおり、Y軸には残差もあります（残差対近似プロットのように）が、スケーリングされているため、（1）に似ていますが、場合によってはうまく機能します。
残差vsレバレッジ-外れたケースの診断に役立ちます。前のプロットと同様に、外れたケースには番号が付けられていますが、このプロットでは、残りのデータと非常に異なるケースがある場合、細い赤い線の下にプロットされます（Cookの距離のwikiを確認してください）。

多くの面で類似しているので、回帰の仮定についてもっと読んでください（例えばhere、またはRの回帰のチュートリアルhere）。

— ティム
ソース

この応答はglmのコンテキストでは正しくなく、上記の応答で@gungによって適切にレイアウトされています。この質問への回答をお探しの場合は、この回答を無視してください。あなたがこの応答の作成者である場合は、gungによる上記の回答をご覧ください。同意する場合は、誤解を招く恐れがあるため、この応答を削除することを検討してください。

— コロン

@colinは、あなたの意見でこの答えが正確に間違っているものをコメントしたいですか？私と2番目の答えの唯一の違いは、gungがより詳細になることです...

— ティム

これらのプロットを線形回帰のコンテキストで使用する方法を説明します。gungは、これらの解釈が二項glmモデルに適用されているため、この場合に失敗する理由を説明します。したがって、ユーザーがこれらの診断プロットをあなたが提案するように解釈すると（そしてあなたの提案はlmの場合に役立ちます）、実際にはそうではありませんが、彼らのモデルはglmの仮定に違反していると誤って結論付けます。

— コロン

「残差vs適合-パターンや外れ値がなく、残差は0付近でランダムに分布する必要があります。gungは、「残差vs適合プロットは、たとえば、見逃した曲線の傾向があるかどうかを確認するのに役立ちます。しかし、ロジスティック回帰の適合は本来曲線であるため、残差に奇妙な傾向があります。」...あなたの一人が間違っているに違いない。

— コロン

私は同意します、これは白黒ではありませんが、強い傾向がある多くの例がありますが、指定されたモデルは特定のGLMの仮定の下で完全に適切です。したがって、「パターンと外れ値はなく、残差は0の周りにランダムに分布する必要があります。」パターンがある場合、モデルの仮定に違反していると簡単に解釈されます。これはそうではありません。

— コロン