尤度比とWald検定


10

私が読んでいることから、とりわけUCLA統計コンサルティンググループの尤度比テストとウォルドテストのサイトでは、2つのglmモデルがデータセットの適合度に有意差を示すかどうかをテストすることは非常に似ています(言い訳少しずれているかもしれません)。本質的に、2つのモデルを比較して、2番目のモデルが最初のモデルよりもはるかに良い適合を示しているか、モデル間に違いがないかをテストできます。

そのため、LRテストとWaldテストは、同じ回帰モデルに対して同じ大まかなp値を示すはずです。少なくとも同じ結論が出るはずです。

今、私はRで同じモデルに対して両方のテストを行い、大きく異なる結果を得ました。これは、1つのモデルに対するRの結果です。

> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   2 -89.808                         
    2   9 -31.625  7 116.37  < 2.2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    > lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   1 -54.959                         
    2   9 -31.625  8 46.667  1.774e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    > waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
      Res.Df Df      F Pr(>F)
    1     45                 
    2     53 -8 0.7398 0.6562
    > waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
  Res.Df Df      F Pr(>F)
1     53                 
2     45  8 0.7398 0.6562

データについて、データ$ yはカウントデータを含み、データ$ site_nameは9レベルの因子です。データ$ yには54の値があり、データレベルごとに6つの値$ site_nameがあります。

頻度分布は次のとおりです。

> table(data$y)

 0  2  4  5  7 
50  1  1  1  1 
> table(data$y,data$site_name)

    Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
  0       6        6     6                          4        6             6            6             5              5
  2       0        0     0                          0        0             0            0             1              0
  4       0        0     0                          1        0             0            0             0              0
  5       0        0     0                          0        0             0            0             0              1
  7       0        0     0                          1        0             0            0             0              0

現在、ゼロカウントの膨大な過剰分散のため、このデータはポアソン分布にあまり適合していません。しかし、データ$ y> 0がポアソンモデルに非常によく適合する別のモデルでは、ゼロインフレーションポアソンモデルを使用しても、非常に異なるワルド検定とlrtestの結果が得られます。そこでは、ウォルド検定は0.03のp値を示していますが、lrtestは0.0003のp値を持っています。結論は同じかもしれませんが、それでも100倍の違いがあります。

では、ここでは、尤度比とウォルドテストの違いについて、何を誤って理解していますか?

回答:


15

研究者は尤度比検定とWald検定を使用して同じ経験的目標を達成していますが、異なる仮説を検定していることに注意してください。尤度比検定は、データがより単純なモデルではなく、より複雑なモデルからのものであるかどうかを評価します。言い換えると、特定の効果を追加することで、モデルがより多くの情報を説明できるようになりますか?逆に、Waldテストは、推定される効果がゼロになる可能性があるかどうかを評価します。確かに微妙な違いですが、それでも重要な概念上の違いです。

Agresti(2007)は、尤度比検定、Wald検定、および「スコア検定」と呼ばれる3番目の方法を対比しています(彼はこの検定についてこれ以上詳しく説明していません)。彼の本から(p。13):

サンプルサイズが小さいか中程度の場合、Waldテストは3つのテストの中で最も信頼性が低くなります。この例のように小さいn(n = 10)の場合、これを信頼するべきではありません。尤度比推論とスコアテストに基づく推論は、一致する名目レベルに近づく実際のエラー確率の点で優れています。3つの統計の値に著しい相違がある場合は、ML推定量の分布が正規性から離れている可能性があることを示しています。その場合、大標本法よりも小標本法の方が適しています。

データと出力を見ると、確かにサンプルが比較的少ないようです。そのため、Waldテストの結果と比較して、尤度比テストの結果により多くの在庫を配置することをお勧めします。

参考文献

Agresti、A.(2007)。カテゴリー・データ分析の紹介(第2版)。ニュージャージー州ホーボーケン:John Wiley&Sons。


尤度比検定は、データがより単純なモデルではなく、より複雑なモデルからのものであるかどうかを評価します。確かに、「どのモデルが最も高い確率で観測データにつながったのか」というわずかに異なる質問を評価しますか?ベイズファクターなどについて説明しているようですが、これには以前の確率に関する情報が必要です...はい?
ジェイクウェストフォール、

2つの質問の違いは、2番目のモデルで何をテストするのですか?y〜1をmodel1、y〜xをmodel2としてlrを実行する場合、実際にlrは、データがより複雑なモデル(model2)またはより単純なモデル(model1)によって説明される可能性が高いかどうかをテストします。この場合、「どのモデルが最も高い確率で説明されるか」という質問と同じです。正しい?
ドルフアンドリンガ2016

3

2つのテストは漸近的に同等です。もちろん、有限サンプルでのパフォーマンス(サイズとパワー)は異なる場合があります。違いを理解するためにできる最善の方法は、自分に似た設定でモンテカルロ研究を実行することです。


3

まず、私はjsakalukの答えに少し同意しません。2つのテストは異なるものをテストしています-どちらも大きいモデルの係数がゼロかどうかをテストしています。彼らは、さまざまな近似を行うことによってこの仮説をテストしているだけです(以下にリンクされている記事を参照)。

jsakalukが言ったように、それらの結果の違いに関しては、これはサンプルサイズが小さいためであると考えられます。私は2014年にブログ記事を書きましたが、これは単純な二項モデルでこれを通過し、さらに役立つ可能性があります。http//thestatsgeek.com/2014/02/08/wald-vs-likelihood-ratio-test/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.