負の二項回帰のピアソンの残差が、ポアソン回帰の残差よりも小さいのはなぜですか?


9

私はこれらのデータを持っています:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

ポアソン回帰を実行しました

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

そして負の二項回帰:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

次に、ポアソン回帰の分散統計を計算しました。

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

そして負の二項回帰:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

式を使用せずに、負の二項回帰の分散統計がポアソン回帰の分散統計よりもかなり小さい理由を誰かが説明できますか?

回答:


9

これはかなり簡単ですが、「方程式を使用しない」ことはかなりのハンディキャップです。私はそれを言葉で説明できますが、それらの言葉は必然的に方程式を反映しています。私はそれが受け入れられる/あなたにとってまだある程度の価値があることを願っています。(関連する方程式は難しくありません。)

残差にはいくつかの種類があります。 生の残差は、観測された応答値(この場合はcounts)とモデルの予測応答値の差です。 ピアソン残差は、それらを標準偏差(使用している一般化線形モデルの特定のバージョンの分散関数の平方根)で割ります。

ポアソン分布に関連する標準偏差は、負の二項分布の標準偏差よりも小さくなります。したがって、より大きな分母で除算すると、商は小さくなります。

さらに、負の2項式はcounts、母集団内でユニフォームとして分布されるため、ケースに適しています。つまり、それらの分散は平均と等しくなりません。


4
OPは非数学的な説明を求めますが、この答えを数学的に(または同等に厳密かつ明確に)正当化することは、それでもよいでしょう。質問を読んだときの私の直感は、「ポアソンはNBの(制限的な)特殊なケースであり、NBにはより多くのパラメーターがあるため、フィッティングにより多くの柔軟性があるため、当然のことながら、残差の合理的な測定値は交換時に増加してはなりません。 NB GLMによるポアソンGLM。」そのような直感が本当に正しいのかと思います。
whuber

もし、。もし、および。したがって、ポアソン分散は平均に等しく、NegBin分散は平均より大きくなります()。これが、「ポアソン分布に関連する標準偏差が負の二項式の標準偏差よりも小さい」理由です。XPoisson(λ)E[X]=V[X]=λXNegBin(r,p)E[X]=pr/(1p)V[X]=pr/(1p)2p<1(1p)2<(1p)
セルジオ

3
ただし、問題の核心は、ポアソンモデルでは自体ではなく推定 を使用しており、NBモデル​​では同様に2つの推定と。したがって、比較は直接適用されません。両方のモデルのMLEの式を実際に書き留めておかないと、それらの推定値のセット間の関係がどうあるべきかはまったく明らかではありません。さらに、ピアソン残差は比率であり、分散についての議論は分母のみに対応しており、これはストーリーの半分にすぎません。 λ R Pλ^λr^p^
whuber

MLEの推定は一貫しています。問題は、gungが言うように、「カウントは母集団内で均一に分散されます。つまり、それらの分散は平均と等しくならない」ということです。ポアソンとは、推定が偏りがなく一貫している場合でもです。それは仕様の誤りの問題です。
セルジオ

5

ポアソンモデルの場合、番目の観測値期待値が、その分散は、したがってピアソン残差Y I μ I μ IiYiμiμi

yiμ^iμ^i

ここで、は平均の推定です。ここでは、MASSで使用される負の二項モデルのパラメーター化について説明します。番目の観測値の期待値が、その分散は、したがってピアソン残差 IYIμIμI+μ2μ^iYiμiμi+μ2θ

yiμ~iμ~i+μ~2θ

ここで、は平均の推定です。の値が小さいほど(つまり、ポアソンの分散が大きいほど)、ポアソンの等価物と比較して残差が小さくなります。[しかし、@ whuberが指摘したように、推定手順は観測値に仮定された分散に従って重み付けするため、平均の推定値は同じではありません。番目の予測子パターンの反復測定を行う場合、それらはより近くなり、一般にパラメーターを追加すると、すべての観測にわたってより適切にフィットするはずですが、これを厳密に示す方法はわかりません。とにかく、ポアソンモデルが成り立つ場合は、推定する母集団の量が多いので、驚くことではありません。] θ μμ Iμ~θμ^μ~i


1
いくつかの方程式をご紹介いただきありがとうございます。しかし、2つのモデルのは同じ値になるのでしょうか?(そうは思いません。)そうでない場合、どのようにして2つのピアソン残差を比較できますか?μi
whuber

@whuberこの場合、両方のモデルの近似値がほぼ同じであることがわかります。結局のところ、シミュレーションではxとYの間に関係がないため、「真の」モデルは実際には切片のみを持ち、基本的に平均をモデル化しています。
jsk 2014年

1
@jskはい、データを確認してコードを実行しました。(ちなみに、データを変更して、2つのモデルで基本的に同じ分散統計を取得することは可能です。)ああ、あなたの主張は有効ですが、それでも特定の質問を解決せず、(暗黙の)一般的な質問に対処しませんポアソン残差とNB残差を比較します。これは、推定された分散もほぼ同じになる可能性があるためです。現在の回答について混乱を招く可能性のある側面の1つは、同じデータの2つのモデルで(原則として)異なる推定値になる可能性があるものを参照するための記号「」の使用です。μi
whuber

1
@whuber確かに、使用に関して有効なポイントがあります。興味深いことに、ポアソンの分散統計がNBよりも低くなるデータをシミュレートする方法を見つけることができないようです。おそらくそれは不可能ですか?これは直感的に理解できることに同意します。アイデンティティー以外のリンク関数を持つglmがある場合、mleの閉じた形のソリューションが存在しないため、証明するのは簡単ではありません。しかし、はい、2つの分散統計を非常に類似させるのは簡単です。μi
jsk 2014年

1
@jsk-NBモデル​​は常にポアソンよりも適切に適合すると疑う1つの理論的な引数は、ポアソンガンマ複合分布としてNBを記述できることです。したがって、あり、次には負の二項モデル。さて、これらの追加パラメータは、モデルが観測値に予測平均近づけることができます(ときあなたが見るであろう残留を減らすこと、。)(yi|λ,vi,r)Poisson(λvi)(vi|λ,r)Gamma(r,r)V、I、YI>λVI>1(yi|λ,r)NB(r,λr+λ)viyi>λvi>1
probabilityislogic
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.