データに多少のばらつきがあるにもかかわらず、混合モデルでランダム効果の分散がゼロになるのはなぜですか?


22

次の構文を使用して、混合効果ロジスティック回帰を実行しました。

# fit model
fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0,
             family = binomial(link="logit"))
# model output
summary(fm0)

件名と項目はランダムな効果です。対象の項の係数と標準偏差が両方ともゼロであるという奇妙な結果が得られています。

Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial  ( logit )
Formula: GoalEncoding ~ 1 + Group + (1 | Subject) + (1 | Item)
Data: exp0

AIC      BIC      logLik deviance df.resid 
449.8    465.3   -220.9    441.8      356 

Scaled residuals: 
Min     1Q Median     3Q    Max 
-2.115 -0.785 -0.376  0.805  2.663 

Random effects:
Groups  Name        Variance Std.Dev.
Subject (Intercept) 0.000    0.000   
Item    (Intercept) 0.801    0.895   
Number of obs: 360, groups:  Subject, 30; Item, 12

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
 (Intercept)     -0.0275     0.2843    -0.1     0.92    
 GroupGeMo.EnMo   1.2060     0.2411     5.0  5.7e-07 ***
 ---
 Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Correlation of Fixed Effects:
             (Intr)
 GroupGM.EnM -0.002

被験者間で明らかにばらつきがあるため、これは起こってはいけません。stataで同じ分析を実行する場合

xtmelogit goal group_num || _all:R.subject || _all:R.item

Note: factor variables specified; option laplace assumed

Refining starting values: 

Iteration 0:   log likelihood = -260.60631  
Iteration 1:   log likelihood = -252.13724  
Iteration 2:   log likelihood = -249.87663  

Performing gradient-based optimization: 

Iteration 0:   log likelihood = -249.87663  
Iteration 1:   log likelihood = -246.38421  
Iteration 2:   log likelihood =  -245.2231  
Iteration 3:   log likelihood = -240.28537  
Iteration 4:   log likelihood = -238.67047  
Iteration 5:   log likelihood = -238.65943  
Iteration 6:   log likelihood = -238.65942  

Mixed-effects logistic regression               Number of obs      =       450
Group variable: _all                            Number of groups   =         1

                                                Obs per group: min =       450
                                                               avg =     450.0
                                                               max =       450

Integration points =   1                        Wald chi2(1)       =     22.62
Log likelihood = -238.65942                     Prob > chi2        =    0.0000

------------------------------------------------------------------------------
        goal |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   group_num |   1.186594    .249484     4.76   0.000     .6976147    1.675574
       _cons |  -3.419815   .8008212    -4.27   0.000    -4.989396   -1.850234
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
_all: Identity               |
               sd(R.subject) |   7.18e-07   .3783434             0           .
-----------------------------+------------------------------------------------
_all: Identity               |
                 sd(R.trial) |   2.462568   .6226966      1.500201    4.042286
------------------------------------------------------------------------------
LR test vs. logistic regression:     chi2(2) =   126.75   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.
Note: log-likelihood calculations are based on the Laplacian approximation.

結果は、サブジェクト用語の非ゼロ係数/ seで予想どおりです。

元々、これはSubject用語のコーディングに関係しているのではないかと考えていましたが、これを文字列から整数に変更しても違いはありませんでした。

明らかに分析は適切に機能していませんが、問題の原因を突き止めることはできません。(NBこのフォーラムの他の誰かが同様の問題を経験していますが、このスレッドは質問への未回答のリンクのままです)


2
「明らかに被験者間で変動がある」ため、これは起きてはいけないと言いsubjectますが、これらの変数について何が何であるかわからないので、それは「明らか」ではありません!あなたのStata分析からの主題の用語は7.18e-07です!技術的には「ゼロではない」と思いますが、0からそれほど遠くはありません...!
smillig 14

観測に感謝します。被験者は研究の参加者であり、パフォーマンスにはばらつきがあります。平均スコアは39%で、標準偏差は11%でした。報告された統計では、これが0.000より大きいと表示されますが、間違っている可能性があります。はい、もちろん7.18e-07は0.000に相当し、0.000は必ずしもゼロではありません。
ニックリッチ14

1
各被験者は何回テスト/サンプリングされましたか?あなたの研究の実質的な側面を知らずに、被験者内の変動が0.000000718(標準誤差0.378)であるとStataがあなたに伝え、Rがそれが0.000であるとあなたに言うならば、実際には何の変化もないという話ではありません主題レベルで?また、Stataは被験者の変動の信頼区間を提供しないことに注意してください。
smillig 14

コメントをありがとう。被験者は11回テストされました。これは、グループおよびアイテムの効果が考慮されると、参加者間での変動がほとんどなくなることを意味すると思います。少し「疑わしい」ように見えますが、2つの異なる分析に一貫性があると思いますか?
ニックリッチ

回答:


27

これについては、https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html(「単一モデル」を検索)で詳細に説明されています。特に少数のグループがある場合は一般的です(ただし、このコンテキストでは30はそれほど小さくありません)。

違いの1つlme4および他の多くのパッケージは、以下を含む多くのパッケージ、ということであるlme4の前身は、nlme分散推定値があること、その手段を:、分散推定値は対数スケールで分散を嵌合させることにより非負でなければならないという事実扱うことができないだけで非常に、正確にゼロであることを非常に少ない。 lme4、対照的に、制約付き最適化を使用するため、正確にゼロの値を返すことができます(詳細については、http://arxiv.org/abs/1406.5823 p。24を参照してください)。 http://rpubs.com/bbolker/6226に例を示します。

特に、Stataの被験者間分散結果をよく見ると、推定値は7.18e-07(切片は-3.4に対して)であり、Wald標準偏差は.3783434(この場合は本質的に役に立ちません!)であり、 95%CIが「0」としてリストされています。これは技術的には「ゼロ以外」ですが、プログラムが報告するのと同じくらいゼロに近い...

分散成分のヌル分布は、ゼロの点質量(「スパイク」)とゼロから離れたカイ2乗分布の混合であることはよく知られ、理論的に証明できます(Stram and Lee Biometrics 1994など)。当然のことながら(しかし、それが実証済みであるかよく知られているかはわかりません)、分散コンポーネントの推定値のサンプリング分布は、真の値がゼロでない場合でも、多くの場合、ゼロにスパイクがあります-たとえば、http//rpubs.com/を参照してくださいbbolker / 4187の例、または?bootMerページの最後の例:

library(lme4)
library(boot)
## Check stored values from a longer (1000-replicate) run:
load(system.file("testdata","boo01L.RData",package="lme4"))
plot(boo01L,index=3) 

ここに画像の説明を入力してください


2
+1。別の良い答えは姉妹スレッドにあります:stats.stackexchange.com/a/34979(このリンクは将来の読者のために残しています)。
アメーバは、モニカを復活させる

13

問題はないと思います。モデル出力から得られる教訓は、被験者のパフォーマンスに「明らかに」変動がありますが、この被験者の変動の範囲は、残差分散項だけで完全または事実上完全に説明できるということです。観察されたすべての変動を説明するために追加のサブジェクトレベルのランダム効果を追加するのに十分な追加のサブジェクトレベルの変動はありません。

このように考えてください。この同じパラダイムの下で実験データをシミュレートしていると想像してください。試行ごとに残差があるが、被験者レベルの変動が0(つまり、すべての被験者が同じ「真の平均」と誤差を持っている)ようにパラメーターを設定します。これで、この一連のパラメーターからデータをシミュレートするたびに、当然のことながら、被験者のパフォーマンスがまったく等しくないことがわかります。スコアが低いものもあれば、スコアが高いものもあります。しかし、これはすべて、試行レベルの変動が残っているためです。(シミュレーションパラメータを決定したことにより)サブジェクトレベルの変動は実際にはないことが「わかっています」。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.