固定効果とランダム効果


10

私はごく最近、一般化線形混合モデルについて学び始め、Rを使用して、グループメンバーシップを固定効果またはランダム効果のどちらとして扱うかによってどのような違いがあるかを調査しました。特に、ここで説明するデータセットの例を見ています。

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

このチュートリアルで概説されているように、Doctor IDの効果はかなりのものであり、ランダムなインターセプトを備えた混合モデルがより良い結果をもたらすと期待していました。ただし、2つの方法のAIC値を比較すると、このモデルの方が悪いことがわかります。

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

したがって、私の質問は次のとおりです。

(1)2つの関数によって提供されるAIC値を比較することは適切ですか?もしそうなら、なぜ固定効果モデルはより良いのですか?

(2)固定効果またはランダム効果のどちらがより重要であるかを特定するための最良の方法は何ですか(つまり、医師による変動が患者の特性よりも重要であることを定量化するために?)

回答:


7

固定効果モデルと変量効果モデルは、データについて異なる質問をします。グループレベルのダミー変数のセットを指定すると、平均応答におけるすべてのグループレベルの観測されていない不均一性が本質的に制御され、推定値はユニット内の変動のみを反映します。変量効果モデルは、メタ母集団(効果は何でも)があり、サンプルがその母集団からの多くの描画を反映しているという仮定から始まります。そのため、結果を異種のインターセプトに固定するのではなく、データを使用して、データの取得元と思われる(通常は正規の)分布のパラメーターを解明します。

固定効果モデルは、持っているデータに対して推論を行うのに適しているとよく言われ、変量効果モデルは、データがランダムサンプルである大きな母集団に対して推論を行うのに適していると言われています。

固定効果モデルについて知ったとき、それらはエラーコンポーネントとパネルデータを使用して動機付けられました。与えられた単位の複数の観測と、時間におけるランダムな処理を行います。t

yit=αi+βTit+ϵit

エラー項を時間的に変化するエラー項のコンポーネントに分割できますが、そうでないコンポーネントは次のとおりです。

yit=αi+βTit+ei+uit

次に、グループの平均を両側から減算します。

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

添え字が付いていないものは、基本的な減算によって方程式から算出されます。つまり、時間の経過に伴う平均は、変化しない場合はいつでも同じです。これには、誤差項の非時変コンポーネントが含まれます。したがって、推定値は時不変の不均一性によって混乱しません。 t

これは、変量効果モデルではうまく機能しませんインデックスが付いていない変数は、その変換( "within"変換)によって吸収されません。そのため、グループ内で変化しないものの影響について推論を引き出すことができます。現実の世界では、そのようなことが重要です。したがって、変量効果は「データのモデル化」に適していますが、固定効果モデルは特定の項の不偏推定に近づくのに適しています。変量効果モデルでは、その 完全に削除したと主張することはできません。E Itei

この例では、時間はグループ化変数です。あなたの例では、それはDIDです。(つまり、一般化します)


1

1)これら2つのモデルだけでなく、比較を行うことが適切です。あなたは比較したいでしょう:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

そして、あなたはanovaでこれを行うことができます:

anova(GLM, GLMM)

(必ずこれと連携する場合はないglmglmer彼らは異なるRのオブジェクトであるかもしれないと、結果。あなたは、同等のリターンオブジェクトを持つ2つの関数を使用する必要がありますようにlmegls、またはANOVAを自分で行います。)

分散分析は対数尤度比検定を実行して、ランダムなドクター効果の追加が有意かどうかを確認します。ランダムドクター効果は0であり、0は分散のパラメーター空間の境界にあるという帰無仮説(実際に使用している分布)をテストしているため、有意性を宣言する前にそのp値を2で除算する必要がありますテストはと分布の混合です-しかし、私はこの時点で私自身の無知の境界近くにいます)。 χ 2 1χ02χ12

私にとって、ネストされたモデルの構築と仮説のテストのプロセスを理解するための最良の本は、West、Welsh、およびGalecki(2007)Linear Mixed Models:A実用的なガイドでした。彼らはすべてを一歩一歩進んでいきます。

2)患者ごとに複数の観察がある場合は、患者にランダムな効果を追加することもできます。次に、忍耐と医師の相対的な重要性をテストするには、患者の予測効果と医師の予測効果を比較します。それぞれの変量効果の項は、関心がある質問である場合、患者間および医師間での分散の量を定量化します。

(私が間違っていたら誰かが私を訂正してください!)


私は確かにそれを持っていることは理にかなっていないんだDID、両方の固定効果、および第二のモデルでランダム切片。さらに、これを1番目のモデルの固定効果として持つことは、これら2つのb / tの選択がDID、を含める必要があるかどうかではなく、の効果をどのように考えるかということになることを意味します。別の見方をすると、アイテム(2)があることに気づきました。アイテム(1)をどこかに持つつもりでしたか?
gung-モニカの回復

あなたは絶対的に正しいです。そもそもDIDを固定効果として持つべきではなかったOPのオリジナルのglmフォーミュラから行っていました。ここでの選択は、DIDをランダムな効果として扱うかどうかによって、モデルに値が追加されるかどうかです。
Christopher Poile 2013年

1

モデルは大きく異なります。glmモデルは、すべてのdoctorID効果が推定され、パラメーター推定値が割り当てられているときの(nullモデルからの)逸脱の全体的な減少に対処しています。もちろん、Age、Married、IL6のすべてが2つのモデルで同じWald統計を持っていることに気づきますか?私の理解(私が認めるほど高度に洗練されたものではありません)は、混合モデルがdoctorIDを迷惑要因または層、つまり特定の親分布から引き出されたと想定できない「効果」として扱っていることです。混合モデルを使用すると「ドクター効果」の理解が深まると思う理由はありませんが、実際にはまったく逆です。

年齢、既婚、またはIL6の影響に関心がある場合は、これらの2つのモデル間でAICを比較するのではなく、同じモデリング構造内で関心のある共変量を削除して、AICの違い全体で比較するとします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.