私が読んでいることから、とりわけUCLA統計コンサルティンググループの尤度比テストとウォルドテストのサイトでは、2つのglmモデルがデータセットの適合度に有意差を示すかどうかをテストすることは非常に似ています(言い訳少しずれているかもしれません)。本質的に、2つのモデルを比較して、2番目のモデルが最初のモデルよりもはるかに良い適合を示しているか、モデル間に違いがないかをテストできます。
そのため、LRテストとWaldテストは、同じ回帰モデルに対して同じ大まかなp値を示すはずです。少なくとも同じ結論が出るはずです。
今、私はRで同じモデルに対して両方のテストを行い、大きく異なる結果を得ました。これは、1つのモデルに対するRの結果です。
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
データについて、データ$ yはカウントデータを含み、データ$ site_nameは9レベルの因子です。データ$ yには54の値があり、データレベルごとに6つの値$ site_nameがあります。
頻度分布は次のとおりです。
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
現在、ゼロカウントの膨大な過剰分散のため、このデータはポアソン分布にあまり適合していません。しかし、データ$ y> 0がポアソンモデルに非常によく適合する別のモデルでは、ゼロインフレーションポアソンモデルを使用しても、非常に異なるワルド検定とlrtestの結果が得られます。そこでは、ウォルド検定は0.03のp値を示していますが、lrtestは0.0003のp値を持っています。結論は同じかもしれませんが、それでも100倍の違いがあります。
では、ここでは、尤度比とウォルドテストの違いについて、何を誤って理解していますか?