ロジスティック回帰と分数応答回帰の違いは何ですか?


13

私の知る限り、ロジスティックモデルと分数応答モデル(frm)の違いは、frmが[0,1]であるがロジスティックが{0、1}である従属変数(Y)であるということです。さらに、frmは準尤度推定器を使用してそのパラメーターを決定します。

通常、を使用glmしてロジスティックモデルを取得できますglm(y ~ x1+x2, data = dat, family = binomial(logit))

frmの場合、に変更family = binomial(logit)family = quasibinomial(logit)ます。

family = binomial(logit)同じ推定値が得られるため、frmのパラメーターの取得にも使用できることに気付きました。次の例をご覧ください

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

戻り、

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

そしてfamily = quasibinomial('logit')

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

戻り、

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

両方からの推定ベータfamilyは同じですが、違いはSE値です。ただし、正しいSEを取得するにlibrary(sandwich)は、この投稿のように使用する必要があります。

さて、私の質問:

  1. これらの2つのコードの違いは何ですか?
  2. frmは堅牢なSEを取得しようとしていますか?

私の理解が正しくない場合は、いくつかの提案をお願いします。

回答:


11

あなたの質問が:これらの2つのコードの違いは何ですか?

を見る?glmSee family for details of family functions?family次の説明が明らかになります。

準二項および準ポアソンファミリは、分散パラメータが1つに固定されていないという点でのみ二項およびポアソンファミリと異なり、過分散をモデル化できます。

これは、出力に表示されるものでもあります。そして、それは両方のモデル/コードの違いです。

あなたの質問が:ロジスティック回帰と分数応答回帰の違いは何ですか?

正しく識別すると、従属変数が0または1の場合、モデルはロジスティックモデルになります。PapkeとWooldridgeは、この形式のGLMを分数にもパラメーターの推定にも使用できることを示しましたが、堅牢な標準誤差を計算します。これはロジスティック回帰には必要ありません。実際、プロビット/ロジットモデルでは堅牢な標準誤差を計算すべきではないと考える人もいます。これは別の議論ですが。

理論的基礎は、Gourieroux、Monfort、およびTrognonによる有名な論文から来ています。彼らは、(い​​くつかの規則性条件などの下で)線形指数族に属する尤度を最大化することによって得られる最尤パラメーターが、線形指数族の他の尤度に属するパラメーターの一貫した推定値であることを示しています。そのため、ある意味では、正確な分布ではありませんが、ここでロジスティック分布を使用していますが、パラメーターは取得したいパラメーターと一致しています。したがって、従属変数の性質を交換することを除いて、ロジスティック応答モデルと分数応答モデルの両方を推定するために非常に同じ尤度関数を使用しているという観察から質問が発生した場合、これは直感です。


frmのパフォーマンスをどのように測定できますか?MSEを線形回帰のように使用できますか?
初心者

1
それは非常に異なる質問です。新しいものとして投稿してください。
-coffeinjunky
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.