ランダムなスロープ効果の導入によりスロープのSEが拡大したのはなぜですか?


9

個人の特定のグループ(3つのグループがあります)の変数logIndに対する年の影響を分析しようとしています。最も単純なモデル:

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16 

グループ1は大幅に減少し、グループ2と3は増加しているが、大幅には減少していないことがわかります。

明らかに、個体はランダム効果であるべきなので、私は各個体にランダム遮断効果を導入します:

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

予想される効果がありました-勾配のSE(係数Group1-3:Year)が低くなり、残差SEも低くなりました。

個人の勾配も異なるため、ランダム勾配効果も導入しました。

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

しかし、今では、予想に反して、勾配のSE(係数グループ1〜3:年)はランダム効果がない場合よりもはるかに高く、さらに高くなっています。

これはどのようにして可能ですか?ランダム効果が原因不明の変動を「食べ」、推定値の「確信」を高めることを期待します。

ただし、残差SEは期待どおりに動作します-ランダムインターセプトモデルよりも低くなります。

必要に応じてここにデータがあります。

編集する

今、私は驚くべき事実に気づきました。個人ごとに線形回帰を個別に実行し、結果の勾配に対してANOVAを実行すると、ランダム勾配モデルとまったく同じ結果が得られますなぜでしょうか?

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079 

必要に応じてここにデータがあります。


year:groupインタラクションの固定効果がある場合は、1年の固定効果が必要です。一般に、主効果を含めずに交互作用項を含めることはできません。年の影響に固定要素がないと本当に思いますか?そして、もしそうなら、どのように固定された年:グループの相互作用があるのでしょうか?
John

そして、なぜ固定切片がないのですか?固定とランダムの両方を持つことができます。
John

@ジョン、このモデルは完全に有効です。これは、カテゴリ変数の望ましいコーディングの問題にすぎません。このように、はGroupの切片であり、はGroup内の勾配です。年と切片の主な影響が含まれている場合、推定値はグループとグループ1の切片の差であり、勾配も同様です。GroupiiGroupi:Yearii
Aniko

@ジョン、これは私の質問には関係ありませんが、それでも私を信じてください、これは大丈夫です、私はそれで多くの実験をしました。私の最初のlmモデルはと完全に同等logInd ~ Year*Groupです。係数のみが異なる形状であり、それ以上はありません。あなたの好みとあなたが好きな係数の形に依存します。あなたが書いているように、私の最初のモデルには「年の主効果」の除外はありません... logInd ~ Year*Groupまったく同じことをします。その場合、Year係数は主効果ではなく、Group1:年です。
好奇心が

わかりました、きちんと、0切片グループをカテゴリカル見なしていませんでした。
John

回答:


11

問題はあなたの予想にあると思います:)個人ごとにランダムな切片を追加すると、切片の標準誤差が増加することに注意してください。各個人が独自の切片を持つことができるため、グループ平均は不確かです。ランダムな勾配でも同じことが起こりました。もう1つの共通の(グループ内の)勾配を推定するのではなく、変化する勾配の平均を推定しています。

編集:なぜより良いモデルはより正確な推定を与えないのですか?

それを逆に考えてみましょう:なぜ初期モデルは標準誤差を過小評価しているのですか?独立していない観測の独立性を前提としています。2番目のモデルはその仮定を緩和し(切片に影響を与える方法で)、3番目のモデルはそれをさらに緩和します。

編集2:多くの患者固有のモデルとの関係

観察は既知の特性です(2年しかなかった場合、変量効果モデルは対応のあるt検定に相当します)。私は本当の証明を管理できるとは思いませんが、おそらく2つのモデルを書くことで関係がより明確になります。表記法が複雑になるため、グループ化変数は無視してみましょう。ランダムな効果にはギリシャ文字を使用し、固定効果にはラテン文字を使用します。

変量効果モデルは(サブジェクト、サブジェクト内で複製): ここでおよび。ij

Yij=a+αi+(b+βi)xij+ϵij,
(αi,βi)N(0,Σ)ϵijN(0,σ2)

被験者ごとに個別のモデルを当てはめると、 ここで、です。ε I JN 0 σ 2 I

Yij=ai+bixij+ϵij,
ϵijN(0,σi2)

[注:以下は実際にはただ手を振っています:]

あなたはこれらの二つのモデルの間で多くの類似点を見ることができますに対応するとに。ランダム効果の平均が0であるため、の平均はに対応します。ランダムな切片と勾配の制約のない相関により、モデルを個別に近似できるという事実が生じます。単一の仮定がサブジェクト固有のとどのようにするかはわかりませんが、が違いを拾うと仮定します。 + α I B I B + β I B I B σ σ I α Iaia+αibib+βibibσσiαi


アニコ、ありがとう。あなたは私の計算がそれを確認して、正しいですが、私はしたいと思いますそれはコントラ直感的なようだ、なぜ...。モデルを改善しました-ランダム効果を導入することで、エラー構造をよりよく説明しました。残留エラーはそれを確認します-ますます低くなっています。したがって、これらのより良い、より正確なモデルでは、より正確な勾配を期待します...私はどこかで間違っていることを知っています。
好奇心が強い2012

アニコに感謝します、それは興味深い見方です!ここではインターセプトではなく、スロープ(Group *:Year)にのみ関心があります。ランダムなイセプト効果を導入する最初のステップでは、独立性の仮定が緩和され、SE ..(スロープの)が低くなり、次のステップに進みます。おそらく多すぎる(??)と反対(もっと悪いSE ..)..多分私はそれについて考える必要がある、ありがとう。
おさるの

今、私も非常に興味深い事実に驚いています-私の編集を見てください。なぜだと思いますか?
おさるの

独立性の仮定があまり緩和されていないと思います!そもそも間違っていた。
Aniko

3
トーマス、「正確な」モデルは、見積もりがより正確になることを意味しません。極端な例として、すべての応答がゼロであることを予測するモデルなど、データなしのモデルを使用します。このモデルは、推定値がゼロであること間違いなく確実です。したがって、それは可能な限り正確なものですが、おそらくそれも可能な限り間違っています。したがって、モデルにパラメーターを適合させるためのより大きなスコープを与えることは、通常、それらのパラメーターが適合される精度が低くなることを意味します。より良いモデルは、より悪いモデルでは捉えられない不確実性を定量化できるため、多くの場合、標準誤差が大きくなります。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.