観測値が独立していない場合の無効な推論


13

基本的な統計では、一般的な線形モデルでは、推論が有効であるためには、観測は独立している必要があることを学びました。クラスタリングが発生すると、それが考慮されない限り、独立性が無効な推論につながる可能性がなくなります。このようなクラスタリングを説明する1つの方法は、混合モデルを使用することです。シミュレートされているかどうかにかかわらず、これを明確に示すサンプルデータセットを見つけたいと思います。クラスター化されたデータを分析するために、UCLAサイトのサンプルデータセットの1つを使用してみました

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

何かが足りない場合を除き、これらの結果は十分に似ているため、出力lm()が無効であるとは思わないでしょう。私はいくつかの他の例を見て(例えば、ブリストル大学マルチレベルモデリングセンターからの5.2)、標準誤差もそれほど違わないことがわかりました(混合モデルからのランダム効果自体には興味がありませんが、それは注目に値します混合モデル出力からのICCは0.42です)。

したがって、私の質問は、1)クラスタリングが発生したときに標準エラーがどのような条件下で著しく異なるか、2)誰かがそのようなデータセットの例を提供できるかどうか(シミュレーションの有無)です。


クラスタリングの意味を拡張できますか?
バイエルジ14

@bayerjクラスタリングによると、たとえば50人の個人で行われた10の血圧測定など、互いに類似した観測が何らかの種類のユニット内でグループ化される場合を意味します。
ジョーキング14

回答:


11

まず、このデータセットは混合モデルを理解するのに最適ではないかもしれません。しかし、なぜ最初に見てみましょう

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

310個の観測と187個のグループがあり、そのうち132個には1個の観測しかありません。これは、マルチレベルモデリングを使用しないことを意味するのではなく、あなたが述べたように、あまり異なる結果が得られないことを意味します。

マルチレベルモデリングの動機

マルチレベルモデリングを使用する動機は、実施した分析の結果だけでなく、設計自体から始まります。もちろん、最も一般的な例は個人から複数の観察を行うことですが、状況をより簡単に理解できるように極端なことをするために、世界中のさまざまな国の個人に彼らの収入について尋ねることを考えてください。したがって、最良の例は、不均一性が多いものです。当然、検査結果で同種のクラスターを使用しても、大きな違いはありません。

10100yx0.5

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

だから、あなたが得る線形モデルを実行する

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

そして、あなたはそれxが統計的効果を持たないと結論づけますy。標準誤差の大きさを確認してください。しかし、ランダム切片モデルの実行

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

推定の標準誤差がどれだけ変化したかがわかります。変量効果の部分を見ると、変動がどのように分解されたかがわかります。収入の変動の大部分は国間であり、国内では人々はより類似した収入を持っています。簡単に言えば、ここで起こったことは、クラスタリング効果を考慮せずにx「失われる」ことです(この種の用語を使用できる場合)が、実際に得られるものを見つける変動性を分解することです。


+1ありがとう、これは素晴らしい。クラスタリングの説明に失敗すると、通常SEが小さいことを何度か読んだことを覚えていると思いますが、それでもやや混乱しています-線形モデルが非常に小さいSEを返すシナリオは何ですか?
ジョーキング14

@JoeKingこれは、マルチレベルモデリングではなく、クラスター化された堅牢なSEに当てはまります。データを取得したats.uclaのページでも確認できます。
スティーブ

完全に差ルック理解することが@JoeKing stats.stackexchange.com/questions/8291/...を
スティーブ・
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.