ポアソン回帰からの残差対適合値のプロットの解釈


25

RのGLM(ポアソン回帰)でデータを近似しようとしています。残差対近似値をプロットすると、プロットは複数の(わずかに凹状の曲線でほぼ線形の) "線"を作成しました。これは何を意味するのでしょうか?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

ここに画像の説明を入力してください


プロットをアップロードできるかどうかはわかりませんが(新規ユーザーはできない場合もあります)、そうでない場合は、少なくとも質問にデータとRコードを追加して、人々が評価できるようにできますか?
GUNG -復活モニカ

Jocelyn、あなたがコメントに入れた情報であなたの投稿を更新しました。homeworkあなたが課題について話したので、私もこれにタグを付けました。
chl

plot(jitter(mod1))を試して、グラフがもう少し読みやすいかどうかを確認してください。残差を定義して、グラフを自分で解釈するための最善の推測をしてください。
マイケルビショップ

1
質問から、私はあなたがポアソン分布とポアregを理解し、残差対適合値のプロットがあなたに言うことを理解していると仮定します(それが間違っている場合は更新してください)プロットで。B / cこれは宿題です。一般的なポリシーとしてはまったく答えていませんが、ヒントを提供しています。共変量がたくさんあることに気づきました。1つの連続共変量と2つの共変量があるのではないかと思います。
GUNG -復活モニカ

1
gungのコメントからの2つのフォローアップ。まず、試してみてくださいtable(dvisits$doctorco)。この表では、プロット上の10本の曲線は何に対応していますか?また、観測数が5000を超える場合、13の回帰係数の適合についてあまり心配する必要はありません。
ゲスト

回答:


29

これは、従属変数が離散的な場合にこのようなプロットに期待する外観です。

kyy=ky^ky^ky^y^1log(y^)ky

同様の任意のモデル(小さなランダム係数を使用)により、問題のプロットを非常に厳密に再現できます

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

残差対フィッティング


6
(+1)色は、何が起こっているかを示すのに大いに役立ちます。
枢機

では、上記のプロットは関係していますか?テキスト(生物医学研究者向けの統計モデリング:複雑なデータの分析の簡単な紹介、Dupont、2002、p。316など)は、近似プロットと残差プロットがゼロ残差線を中心に、ファン(生の場合)残差)またはそうでない(逸脱の場合、例えば)。結果変数のカウントの範囲が限られている場合、これらのバンドを取得します。上記のプロットのように、y = 0のラインを中心にしていません。OPの残差プロット(またはサンプルプロット)を知る方法この回答で行われた)モデルがデータにうまく適合していることを示していますか?
メグ

1
@Megこのアドバイスは、GLMの残差には直接適用されません。この答えを説明するために使用されるモデルは、データの生成に使用されるモデルであるため、正しいことがわかっていることに注意してください。
whuber

1/2:@whuberに感謝します。この答えについては、データが特定の分布からシミュレートされたため、モデルが正しいことがわかっていますが、実際には不明です(OPの投稿のように)。また、残差について書いたものはPOI回帰に適用されます(すべてのGLMではなく、このGLM)。y = 0を中心とした標準化されたPOI残差(ピアソンまたは逸脱など)を示すテキストを見ただけなので、このモデル(明らかに正しい)の場合、プロットが見えるため、何を探すべきかわかりませんそのような何もありません。
メグ

2/2:もしかして、POI残差についてもっと徹底的に議論する参考資料はありますか?
メグ

8

残差プロットのこのようなストライプは、異なる予測を得る(ほぼ)同じ観測値を持つポイントを表すことがあります。目標値を見てください:いくつのユニークな値ですか?私の提案が正しければ、トレーニングデータセットに9つの一意の値があるはずです。


1
0,1,,9

-3

このパターンは、ファミリまたはリンク、あるいはその両方の不一致の特徴です。データが過剰に分散している場合は、おそらく負の二項分布(カウント)またはガンマ(連続)分布を考慮する必要があります。また、一般化線形モデルを使用する場合、予測子ではなく、変換された線形予測子に対して残差をプロットする必要があります。ポアソン予測子を変換するには、線形予測子の平方根の2倍を取り、それに対して残差をプロットする必要があります。さらに残差は、ピアソン残差だけではなく、逸脱残差およびスチューデント化された残差を試してください。


3
glmのポアソン族の正準リンクがlogである場合、なぜ平方根の2倍ですか?線形予測子のexp()であってはなりませんか?しかし、線形予測子自体に対して残差をプロットすることの問題が何であるかはわかりません。これはここで行われていることだと思います。
ピーターエリス

「パターン」のどの側面がモデルの仕様ミスの可能性に注意を引いているのか、ライアンを説明してもらえますか?それは微妙なことのようですが、潜在的に重要な洞察です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.