summary.glm()の分散


13

私はglm.nbを実施しました

glm1<-glm.nb(x~factor(group))

groupはカテゴリーで、xは計量変数です。結果の概要を取得しようとすると、summary()またはを使用するかどうかによって、わずかに異なる結果が得られsummary.glmます。summary(glm1)私にくれます

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

summary.glm(glm1)は私に

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

分散パラメータの意味は理解していますが、回線の意味は理解していません

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

ハンドブックでは、それは推定された分散になりますが、0.95は0.7109に近くないので、それは悪い推定のようです。または、推定された分散は、推定された分散パラメーターとは異なりますか?私は、分散summary.nb(x, dispersion=)を何かに設定する必要があると思いますが、分散を1に設定する必要があるかどうかはわかりません(summary()分散パラメータの推定値を挿入するか、推定値を挿入する必要がある場合、この場合、summary.nb(glm1, dispersion=0.7109)他の何かにつながるか、それとも単に使用するだけで大​​丈夫summary(glm1)ですか?


2
クラスnegbinの適切なS3メソッドにディスパッチするとき、summary()を使用します。分散はもちろん1である必要があります。推定されるのはシータです。参照してくださいstats.stackexchange.com/questions/27773/how-does-glm-nb-work/...

回答:


13

まず、summary.glmclassのオブジェクトには使用しないでください"negbin"。の関数コードを見るとsummary.glm、右上にの計算が表示されますdispersion。注summary.glm のみによって装着することができるモデルを知っているglmと分散パラメータの特別な治療のための二項分布とポアソンファミリーアウトそれゆえにシングルされると仮定これら以外のモデルについて1に等しくなるように、φは、モデルから計算されます。しかし、これは二項またはポアソンではない家族に適切であるという仮定に基づいていることに注意してください。で近似されたモデルのはです。したがって、使用するときϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glmによって適合されたモデル上で、glm.nbコード内

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

"poisson"またはのテストは"binomial"失敗し、実際にこのファミリーのデフォルトで1に等しいと想定される場合、を計算します(の定義に従って)。ϕsummary.negbin

これで問題ありません、正しいメソッドを呼び出すとに異なる値を供給するだけで簡単です引数を経由して。ϕdispersion

次に、出力を誤解します。見たら

Negative Binomial(0.7109)

私は上記で触れたように、括弧内に引用された数があるθ、負の二項分布のパラメータ。この値は、フィッティング中に推定される値です。分散パラメータϕではないため、2つの数値は必ずしも等しくなる必要はありません。これらは2つの数字です。θ^ϕ

ϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

negbinϕ


5
+1すてきな説明。2つの小さなコメントがあります:既知の形状パラメーターを持つ二項、ポアソン、負の二項の分散パラメーターは、指数ファミリーの定義により1です(仮定ではありません)。異なる分散を推定してサマリーメソッドに提供できると言う場合、特に可能性に影響する準領域に進出するため、注意する必要があります。
モモ

@Momoまあ言った。あなたが述べていることと、それぞれの機能のヘルプページの詳細との間で私は引き裂かれました。
モニカの復活-G.シンプソン

2

Venables&Ripley(2002)から、Sを使用したModern Applied Statistics: 'Theta'は、形状付きのガンマ分布を定義しますθ1θ11θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

期待

EY=μ

分散

VarY=μ+μ2θ

@Momoが指摘しているように、分散パラメーターはまったく別のものであり、準尤度推定を行うために変化させることができます。負の二項モデルと(真の)ポアソンモデルの場合、値は1に正しく固定されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.