分散=とベータ回帰と準GLMの違いは何である


8

まず、背景を説明しましょう。最後に質問をまとめます。

その平均値によってパラメータベータ分布、及びφは、持っているヴァーY = V μ /φ + 1 V μ = μ 1 - μは分散関数です。μϕVar(Y)=V(μ)/(ϕ+1)V(μ)=μ(1μ)

ベータ回帰(例えば、Rにbetaregパッケージを使用)において、回帰は、ベータ分布の誤差を想定し、固定効果との値を推定ϕ

GLM回帰では、の分散機能と「準」分布を定義することが可能である。したがって、ここでのモデルは、ベータと同じ分散関数を持つエラーを想定しています。次に、回帰は固定効果と準分布の「分散」を推定します。μ(1μ)

重要なものが欠けているかもしれませんが、これらの2つの方法は本質的に同じで、おそらく推定方法が異なるだけのようです。

Iは間隔である「類似性」と呼ばれるDV、上退縮、Rの両方の方法を試みた(0,1)

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

    Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

ϕϕϕ=1/Dispersion1

ただし、これらの値はどれも同じではありません。

これは、2つの方法で実際に異なるのはそれらの推定手順だけだからです。または、私が見逃しているいくつかの根本的な違いはありますか?また、ある方法を他の方法よりも優先する理由はありますか?


部分的なロジスティック回帰を再発見したようです...
Laconic

回答:


5

平均関数と分散関数が同じ形式であることは正しいです。

これは、非常に大きなサンプルでは、​​観測値が本当に1または0に近くない限り、観測値が相対的な重みを持つため、非常に類似した回答を与える傾向があることを示唆しています。

しかし、一部の連続比率が境界に近づく小さなサンプルでは、​​2つのアプローチによって与えられる相対重みが異なるため、差異が大きくなる可能性があります。異なる重みを持つポイントも比較的影響力がある(x空間ではより極端な)場合、場合によっては差が大きくなることがあります。

ベータ回帰では、MLを使用して推定します。準二項モデルの場合-Rで推定された少なくとも1つは、ヘルプのこのコメントに注意してください。

準二項式および準ポアソンファミリは、分散パラメータが1に固定されていないという点でのみ、二項式およびポアソンファミリと異なります。したがって、過分散をモデル化できます。二項式のケースについては、McCullagh and Nelder(1989、pp。124–8)を参照してください。それらは(いくつかの制限の下で)準二項モデルのように平均に比例する分散を持つモデルがあることを示していますが、glmはそのモデルの最尤推定値を計算しないことに注意してください。Sの動作は準バリアントに近いです。

hii

ことに注意してくださいbetaregビネットは、セクション2の終わりに、これらのモデルとの間の接続のいくつかの議論を与えます。


「サンプル」では、成功と失敗の観察について言及していると思いますか?私のDVの「類似性」は成功の割合ではありません。これは、コサイン類似度または2つの非常に高次元のベクトルであり、0と1の間の境界があり、0または1の値の可能性はありません。ベータ分布は、そのようなデータの合理的な選択のようです。私がglmに転送することに興味があるのは、ランダム効果を追加したいからです。これは、betaregでは不可能です。私のようなシナリオで、mu(1-mu)の準が本質的に同じであるかどうかを確認しようとしています。
Andrew Milne

Iにおける平均サンプル通常の統計的な意味が、私は絶対にしないでくださいカウントのサンプルを意味します。私は0と1の間の連続値のサンプルを意味します(これは一般的にベータ回帰の比率です)。私は0または1「に近い」ことの問題について話をされないカウントの割合をモデリング話していた場合、私は正確さを持つ大規模な問題について話をするだろう 0と1
Glen_b -Reinstateモニカ

説明をありがとう。私はおそらく明白なものを欠いているかもしれませんが、なぜサンプルサイズ(伝統的な意味で)がここに関連するのか、または0または1に近い値がベータ対疑似glmアプローチで異なる扱いになる理由は明らかではありません。少し説明してもらえますか?
Andrew Milne

1
nn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.