GLMの準ポアソンが負の二項分布の特殊なケースとして扱われないのはなぜですか?


21

私は、一般化線形モデルを、過剰分散の場合とそうでない場合のあるカウントデータのセットに適合させようとしています。ここで適用される2つの正準分布は、ポアソンおよび負の二項(Negbin)、EVおよび分散ですμ

VarP=μ

VarNB=μ+μ2θ

これは、それぞれglm(..,family=poisson)とを使用してRに適合させることができますglm.nb(...)quasipoisson私の理解では同じEVと分散を持つ調整されたポアソンである家族もあります

VarQP=ϕμ

すなわち、ポアソンとネビンの間のどこかに落ちます。準ポアソンファミリの主な問題は、それに対応する尤度がないことであり、したがって、非常に有用な統計的検定と適合度測定(AIC、LRなど)の多くが利用できません。

QPとNegbinの分散を比較すると、置くことでそれらを等化できることに気付くかもしれません。このロジックを続けると、準ポアソン分布をNegbinの特殊なケースとして表現することができます。ϕ=1+μθ

QPμϕ=NBμθ=μϕ1

すなわち、線形に依存する持つNegbin です。上記の式に従ってランダムな数列を生成し、それを当てはめることにより、このアイデアを検証しようとしました:μθμglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

両方の適合によりパラメーターが再現され、準ポアソンにより「合理的な」推定値が得られます。準ポアソンのAIC値も定義できるようになりました。ϕ

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(オブジェクトに見つからなかったため、からフィッティングされた値を手動でコピーする必要がありました)ϕsummary(glmQP)glmQP

以来、これはquasipoissonは、当然、より良いフィット感であることを示すであろう。そのため、少なくともがすべきことを実行するため、のAIC(および拡張、尤度)の合理的な定義になる可能性があります。私が残されている大きな質問は A I C Q PACQP<ACNBACQP

  1. この考えは理にかなっていますか?私の検証は循環推論に基づいていますか?
  2. よく確立されたトピックから欠落していると思われる何かを「発明」する人にとっての主な質問:このアイデアが理にかなっている場合、なぜ既に実装されていないのglmですか?

編集:図を追加しました

glmフィットと+ -1シグマバンド


1
(+1)相互検証へようこそ!そして、すばらしい質問をありがとうございます(ただし、コード内のいくつかのコメントは、Rを使用しない人にとっては良いかもしれません)。NB1モデルを再発明したのではないかと思います(詳細はまだ追っていませんが)。また、準ポアソン分布は存在しないことに注意してください(これが尤度やAICがない理由です)。これは、平均と分散を適合させる方法を指しているだけです。
Scortchi -復活モニカ

2
ありがとう!その間にコメントをいくつか追加しましたが、それで問題が解決することを願っています。準ポアソン分布自体は存在しないことを理解しています-NB1分布が存在し、QPの準問題がないことを考えると、QPがまったく問題である理由を本当に理解しようとしていました(明らかな解決策については、Achimsの回答を参照してください)。
user28400

1
@Scortchi ---実際には、このような分布があります...および場合、は平均および分散指数族です。場合。定義されているため、カウントデータには必ずしも適していません(近似値を除く)。Y = K X Y μ = K λ K μ K 1 0 K 2 K バツポアλY=kバツYμ=kλkμk10k2k
Glen_b-モニカの復活

1
@Glen_b:人々は本当にそれを準ポアソンと呼んでいますか?いずれにせよ、それは良い例です-「quasiPoisson」モデルを使用する場合、実際にはその分布、またはNB1、またはその他、係数とその標準誤差の推定を行う平均と分散の関係だけを想定していませんサンプルが大きくなるほど良くなります。
Scortchi -復活モニカ

1
@Scortchi準ポアソンの仮定を満たしているのは、唯一の指数関数型の分布であるため、ある種の仮定では、仮定が意味する分布であると指摘する人がいます。もちろん、人々がそれを使用するとき、データがその特定の分布からのものであることをほとんど*意図することはありません-それは単に平均と分散がどのように関係するかの大まかな説明として意図されています。(これは、いくつかの保険アプリケーションで非常に単純な仮定の下で意味をなすことができる- 。合計の特許請求の範囲は、コスト、クレームの数はポアソンあり、クレーム当たりのコストを効果的に一定である)
Glen_b -Reinstateモニカ

回答:


24

準ポアソンは完全な最尤(ML)モデルではなく、準MLモデルです。ポアソンモデルの推定関数(またはスコア関数)を使用して係数を推定し、特定の分散関数を使用して適切な標準誤差(または完全共分散行列)を取得して推論を実行します。したがって、glm()およびlogLik()/またはAIC()ここに供給しません

正しく指摘したように、sizeパラメーターが期待値とともに変化する場合、同じ期待値および分散関数を持つモデルを負の二項(NB)フレームワークに埋め込むことができます。文献では、これは一般的にNB1パラメーター化と呼ばれます。たとえば、Cameron&Trivediの本(カウントデータの回帰分析)またはWinkelmann&Boesによる「Analysis of Microdata」を参照してください。μ Iθμ

いかなる回帰(単にインターセプト)NB1のパラメータ化によって採用NB2のパラメータ化が存在しない場合MASSglm.nb()一致は。リグレッサーとは異なります。統計文献では、NB2パラメーター化がより頻繁に使用されていますが、一部のソフトウェアパッケージはNB1バージョンも提供しています。たとえば、Rでは、gamlssパッケージを使用して行うことができますgamlss(y ~ x, family = NBII)。NB2のパラメーター化とNB1 をやや混乱させてgamlss使用NBIすることに注意してくださいNBII。(ただし、専門用語と用語はすべてのコミュニティで統一されているわけではありません。)

それから、もちろん、NB1が利用可能な場合に準ポアソンを使用する理由を尋ねることができますか?まだ微妙な違いがあります:前者は準MLを使用し、二乗偏差(またはピアソン)残差から分散から推定値を取得します。後者は完全なMLを使用します。実際には、違いはそれほど大きくありませんが、どちらのモデルを使用する動機もわずかに異なります。


1
ありがとう!非常に有用な答え、私はgamlss今実験しており、まさに私が必要としていたように見えます。準尤度対完全MLを使用する動機について詳しく説明してください。
user28400

2
以下を仮定します。(1)期待値とリグレッサの間の対数線形関係(2)分散と期待値の間の線形関係を仮定します。残りの可能性は完全に指定されていません。(2)の代替として、開業医は、より一般的な不均一分散パターンを可能にするいわゆる「ロバスト」サンドイッチ標準誤差を時々使用します。もちろん、サンドイッチ標準エラーでNB1を使用することもできますvignette("countreg", package = "pscl")
アヒムザイレイス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.