一般化線形モデルでの正規性の残差の確認


12

このホワイトペーパーでは、一般化線形モデル(二項および負の二項誤差分布の両方)を使用してデータを分析します。しかし、メソッドの統計分析セクションには、次のステートメントがあります。

... 2つ目は、ロジスティック回帰モデルを使用してプレゼンスデータをモデリングし、一般化線形モデル(GLM)を使用して採餌時間データをモデリングすることです。対数リンク関数を伴う負の二項分布を使用して、採餌時間データをモデル化し(Welsh et al。1996)、モデルの妥当性を残基の検査により検証しました(McCullagh&Nelder 1989)。Shapiro–WilkまたはKolmogorov–Smirnov検定を使用して、標本サイズに応じて正規性を検定しました。データは分析の前にログ変換され、正常に準拠しました。

彼らが二項および負の二項誤差分布を仮定する場合、確実に残差の正規性をチェックするべきではありませんか?


2
エラーは二項分布ではないことに注意してください-各応答は、他の質問への回答のように、対応する予測子の値によって与えられる確率パラメーターで二項分布します
Scortchi -復活モニカ

3
二項回帰または負の二項回帰には、正常である必要があるものは何もありません。彼らが変換する応答である場合、それは非常に非生産的です。GLMを台無しにします。
Glen_b -Reinstateモニカ

1
彼らが実際に正常性をテストしているのか(それが残差であると確信しているのか)、またはどの分析でデータを変換しているのか(GLMであると確信しているのか)は、引用から明らかではありません。
Scortchi-モニカの復職

引用を少し拡大しました。誰かが論文の著者がしたことが間違っていたか正しいかを確認できましたか?
ルチアーノ14

私はそれがまだひどく明確ではないことを恐れています-論文またはその参考文献の他の場所で説明されていない場合、分析の実施方法の詳細について著者に連絡してください。
Scortchi-モニカの復職

回答:


16

NB逸脱(またはピアソン)残差は、ガウスモデルを除いて正規分布を持つとは予想されません。以下のためのロジスティック回帰の場合について、@Statは言うように、ずれ残差番目の観測Y iはによって与えられます。y

rD=2|ログ1π^|

y=0

rD=2|ログπ^|

y=1π^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQプロットn = 1

n

rD=sgnynπ^2[yログynπ^+nyログnyn1π^]

ynn

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQプロットn = 30

ポアソンGLMまたは負の二項GLMの場合も同様です。予測カウントが低い場合、残差の分布は離散的で歪んでいますが、正しく指定されたモデルの下では、カウントが大きくなると正規化される傾向があります。

少なくとも私の首の部分では、通常の残留正規性のテストを行うことは普通ではありません。場合は正常テストは、基本的に役に立たない、あなたのモデルは、正確な正規性を前提としていたときに、その後、なおさらではそうでないときには役に立たないのです。それでも、不飽和モデルの場合、グラフィカルな残留診断は、予測パターンごとの反復数に応じてピンチまたは一握りの塩で正常性を取り、適合性の有無と性質を評価するのに役立ちます。


1

彼らがしたことは正しいです!二重チェックへの参照を提供します。線形回帰分析の概要、第5版のセクション13.4.4を参照ダグラス・C・モンゴメリー、エリザベス・A・ペック、G・ジェフリー・バイニング。特に、460ページの例を参照してください。ここでは、二項分布に適合し、「偏差残差」の正規性の仮定を再確認しています。458ページで述べたように、これは「逸脱残差が標準の標準理論の線形回帰モデルで通常の残差と同じように動作する」ためです。したがって、それらを通常の確率プロットスケールと、近似値でプロットすると意味があります。再度、上記のリファレンスの456ページを参照してください。それらは、二項の場合だけでなく、ポアソンglmおよびガンマ(link = log)についてもページ460および461で提供した例で、逸脱残差の正常性をチェックしました。
二項の場合、逸脱残差は次のように定義されます。

rD=2|ln1π^|
y=0
rD=2|lnπ^|
y=1。次に、Rでコーディングして、それを取得する方法を示します。
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

ポアソンの場合もこちらで確認してください。


2
あなたの例は奇妙な選択です。それらの逸脱残差のPPまたはQQプロットを作成しましたか?もしそうなら、あなたは何を結論付けましたか?
Scortchi -復活モニカ

5
この場合、ポイントは残差の正規性をチェックしても意味がありません-明らかに正規分布ではなく、そうであるべきでもありません。各予測子パターンの観測値の数が増えると、残差(予測子パターンごとに1つの残差が計算されます)の分布が正規になる傾向があります。同様に、ポアソンモデルまたは負の二項モデルの場合、正常な近似が適切であるためには、カウントが大きくなる必要があります。
Scortchi-モニカの復職

2
問題は、一般化線形モデルの残差を正規分布させるかどうかです。あなたの答えは修飾されていない「はい」のように見えます(あなたの情報源は疑いもなく必要な修飾を与えていますが、すべての読者がそれらをチェックするわけではありません)。次に、モデルが正しく指定されていたとしても、残差が正規分布することを期待する理由まったくない例を示します。したがって、(あなたけれども...残差を調べることによって、モデルの誤仕様を検出する例
Scortchi -復活モニカ

2
...と言っていない)。ですから、答えを得るには多くの説明が必要だと思います。
Scortchi -復活モニカ

2
IMO @Scortchiのコメントはここでは妥当です。Googleブックのプレビューで Montgomeryの本見ると、QQプロットが作成されますが、元のポスターで述べられているような実際の正規性テストは実行されません。確かにQQプロットを作成することは診断テストとしては合理的ですが、ほとんどすべての現実的な状況では、逸脱が残っていてもです。正常ではありません。
アンディW 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.