混合モデルでグループをランダムまたは固定として扱う場合の勾配推定値の大きな不一致


18

いくつかのモデルパラメーターがいくつかのグループ化因子にわたってランダムに変化すると考えられる場合、ランダム効果(または混合効果)モデルを使用することを理解しています。私は、応答がグループ化因子全体で正規化されて(完全ではないがかなり近い)中心に置かれているが、独立変数xはいかなる方法でも調整されていないモデルに適合することを望んでいます。これにより、次のテスト(作成されたデータを使用)に導かれ、実際に効果があるかどうかを確認しました。ランダムインターセプト(で定義されたグループ間)を使用した1つの混合効果モデルと、固定効果予測子として因子fを使用しfた2つ目の固定効果モデルを実行しました。lmer混合効果モデルと基本関数にRパッケージを使用しましたlm()固定効果モデル用。以下はデータと結果です。

yグループに関係なく、0付近で変化することに注意してください。そして、それxyグループ内で一貫して変化しますが、y

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

データの操作に興味がある場合、dput()出力は次のとおりです。

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4, 
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15, 
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")), 
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

混合効果モデルのあてはめ:

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML 
Formula: y ~ x + (1 | f) 
   Data: data 
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000 
 Residual             0.17567  0.41913 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000 

切片の分散成分は0と推定され、私にとって重要なことxは、の有意な予測因子ではないことに注意してくださいy

次にf、ランダムインターセプトのグループ化因子の代わりに予測子として固定効果モデルを適合させます。

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.16250 -0.03438  0.00000  0.03125  0.16250 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189 
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348 

さて、予想通り、xはの重要な予測因子であることに気付きましたy

私が探しているのは、この違いに関する直感です。ここで私の考えはどのように間違っていますか?xこれらのモデルの両方で重要なパラメーターを誤って見つけることを期待しているのに、実際に固定効果モデルでしか見られないのはなぜですか?


RE = 0の分散が与えられた場合、ランダム効果のセットアップに何か問題があることをすぐに指摘したいだけです(つまり、REは変動を説明しません)。それを考えると、x変数が重要でないことは驚くことではありません。私はそれがあなたが走ったのと同じ結果(係数とSE)だと思うlm(y~x,data=data)。これ以上診断する​​時間はありませんが、これを指摘したかったのです。
アフィン

@Affineそれは良い点です。したがって、ここでの関心は、ランダム効果が切片の変動を捕捉しなかった理由だと思います。あなた、または誰かに後でコメントがあれば、私はそれを歓迎します!ありがとう。
ndoogan

回答:


31

ここでいくつかのことが行われています。これらは興味深い問題ですが、すべてを説明するにはかなりの時間/スペースが必要です。

まず、データプロットすると、これがすべてわかりやすくなります。これは、データポイントがグループごとに色付けされている散布図です。さらに、グループごとに個別のグループ固有の回帰線と、破線の太字の単純な回帰線(グループを無視)があります。

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

データ

固定効果モデル

これらのデータを使用した固定効果モデルの処理は、非常に簡単です。の効果は、グループの「制御」と推定されます。言い換えると、は最初にグループダミーに対して直交化され、次にこの新しい直交化された勾配が推定されます。この場合、グループのダミーはと非常に相関しているため、この直交化により多くの分散(具体的にはクラスター間変動)が削除されます。(これを直感的に認識するために、グループダミーだけでを回帰し、残すとどうなるかを考えますx x x x x x y y txxxxxxxy方程式から。上記のプロットから判断すると、この回帰のダミー係数のそれぞれについて、高い統計があると予想されることは確かです!)t

だから、基本的に私たちのために意味をアップし、この端部が、ということは何かのみ内のクラスタの変動での効果を推定するために使用される。クラスター間変動(上記で確認できるように、かなり大きい)は、分析の「制御外」です。したがって、得られる勾配は、4つのクラスター内回帰線の平均であり、この場合はすべて比較的急です。x xxxxlm()

混合モデル

混合モデルが行うことは、もう少し複雑です。混合モデルは、クラスター内変動とクラスター間変動の両方を使用して、の効果を推定しようとします。ちなみに、これはモデルのセールスポイントの1つです。この追加情報を組み込む能力/意欲により、より効率的な見積もりが得られることが多いためです。間のクラスター効果ときしかし残念ながら、物事はトリッキー得ることができとの平均内のクラスター効果ケースがここにあるよう本当に、同意しません。注:この状況は、パネルデータの「ハウスマンテスト」が診断しようとするものです。x x xxxxx

具体的には、混合モデルがここで試行することは、クラスター内の平均勾配とクラスターを無視する単純な回帰線(太い破線)との間の何らかの妥協を推定することです。混合モデルが落ち着くこの妥協範囲内の正確なポイントは、ランダムな切片の分散と総分散の比(クラス内相関とも呼ばれます)に依存します。この比率が0に近づくと、混合モデルの推定値は単純回帰線の推定値に近づきます。比率が1に近づくと、混合モデルの推定値はクラスター内の平均勾配推定値に近づきます。x

単純な回帰モデルの係数は次のとおりです(プロットの太い破線):

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x  
   0.008333     0.008643  

ご覧のとおり、ここの係数は混合モデルで取得したものと同じです。既に述べたように、ランダム切片の推定値は分散0であり、前述の比率/クラス内相関は0であるため、これはまさに予想されるものです。したがって、この場合の混合モデルの推定値は単純な線形回帰の推定値であり、プロットでわかるように、ここでの勾配はクラスター内の勾配よりはるかに目立ちません。

これにより、最後の概念上の問題が発生します...

ランダムな切片の分散が0と推定されるのはなぜですか?

この質問に対する答えは、少し技術的で難しいものになる可能性がありますが、できるだけシンプルで非技術的なものにしようと思います(両方の目的のためです!)。しかし、それでもまだ少し時間がかかるでしょう。

先ほど、クラス内相関の概念について述べました。これは、の依存性についての別の考え方です。y(より正確には、モデルのエラー)クラスタリング構造によって引き起こされます。クラス内相関は、データセット内の任意の場所から引き出された2つのエラーの平均類似度に対して、同じクラスターから引き出された2つのエラーの平均を示します(同じクラスター内にある場合とない場合があります)。クラス内の正の相関は、同じクラスターからのエラーが互いに比較的似ている傾向があることを示しています。クラスターから1つのエラーを描画し、その値が高い場合、同じクラスターから次に描画するエラーも高い値になる可能性を期待できます。あまり一般的ではありませんが、クラス内相関は負になる場合があります。同じクラスターから引き出された2つのエラーは、データセット全体で通常予想されるよりも似ていない(つまり、値がさらに離れている)。

検討している混合モデルは、データ内の依存関係を表すクラス内相関法を使用していません。代わりに、分散コンポーネントの観点から依存関係を記述します。クラス内相関が正である限り、これはすべて問題ありません。これらの場合、クラス内相関は、特に前述のランダム切片の分散と総分散の比率として、分散コンポーネントの観点から簡単に記述できます。(クラス内相関に関するwikiページを参照してください残念ながら、分散コンポーネントモデルは、クラス内の負の相関がある状況に対処するのが困難です。結局、分散コンポーネントの観点からクラス内相関を記述することは、分散の比率としてそれを記述することを含み、比率が負であってはなりません。

プロットから判断すると、これらのデータのクラス内相関はわずかに負になるように見えます。(私はこの結論を描画してで探していますと、そこでの分散がたくさんあるという事実である各クラスタ内で、しかし上のクラスタ手段では比較的小さな差異、同じクラスタから引き出された2つのエラーが持っている傾向がありますので、ほぼの範囲に及ぶ差y yyyy異なるクラスターから引き出されたエラーは、より緩やかな差を持つ傾向があります。)混合モデルは、実際には、この場合に実際に混合モデルがよく行うことを行っています。負のクラス内相関と一致する推定値を提供します召集できますが、下限0で停止します(この制約は通常、モデルフィッティングアルゴリズムにプログラムされます)。そのため、推定されたランダムインターセプトの分散は0になりますが、これはまだあまり良い推定ではありませんが、この分散コンポーネントタイプのモデルで得られるのとほぼ同じです。

それで、私たちは何ができますか?

1つのオプションは、固定効果モデルを使用することです。これらのデータには、混合モデル(と相関するランダムなグループ効果、およびクラス内の負の相関)にとって扱いにくい2つの別個の機能があるため、ここでは合理的です。x

別のオプションは、混合モデルを使用することですが、クラスター間およびクラスター内の勾配を別々に推定するように設定します。この回答の最後で、この戦略について述べている2つの論文を参照します。Bell&Jonesの最初の論文で提唱されたアプローチに従います。x

これを行うために、私たちは取るの予測をし、2つの予測因子、に分割だけの間、クラスタ内の変動が含まれます、およびで唯一の内、クラスタの変動が含まれます。これは次のようになります。x b x x w xxxbxxwx

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
> 
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML 
Formula: y ~ x_b + x_w + (1 | f) 
   Data: dat 
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000 
 Residual             0.010898 0.10439 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b  
x_b 0.000       
x_w 0.000  0.000

ここで注意すべき点がいくつかあります。まず、の係数は、固定効果モデルで得られたものとまったく同じです。ここまでは順調ですね。次に、の係数は、クラスター平均のベクトルでの回帰から得られる回帰の勾配です。そのため、最初のプロットでの合計分散を使用した太い破線とはまったく同じではありませんが、近いです。第三に、の係数は単純回帰モデルの係数よりも小さいですが、標準誤差も大幅に小さいため、x b y x x x b txwxbyxxxbt-統計が大きくなります。単純な回帰モデルが処理しなければならなかった多くの分散を食い込むランダムなグループ効果により、この混合モデルでは残差分散がはるかに小さいため、これも驚くことではありません。

最後に、前のセクションで詳しく説明した理由により、ランダム切片の分散の推定値はまだ0です。少なくとも以外のソフトウェアに切り替えることなく、それについて何ができるのか、私には本当に分かりませんlmer()。また、この最終的な混合モデルでの見積もりに悪影響を及ぼしているかどうかもわかりません。たぶん、別のユーザーがこの問題に関するいくつかの考えに耳を傾けることができます。

参照資料

  • ベル、A。、およびジョーンズ、K。(2014)。固定効果の説明:時系列断面およびパネルデータのランダム効果モデリング。政治学の研究と方法。 PDF
  • Bafumi、J.&&Gelman、AE(2006)。予測変数とグループ効果が相関する場合のマルチレベルモデルの適合。PDF

1
これは非常に思慮深く有益な対応です。私はこれらの参照に出くわしていません。彼らのタイトルは、私の探求のこの時点で必読として私を打つ。私はあなたにビールを借りています!
ndoogan

1
Bell&Jones refは素晴らしかったです。私が待ち望んでいたことの1つは、これらの中間の分離が一般化線形混合モデルに容易に拡張されるかどうかということです。彼らはそうすべきだと思われますが、ロジスティック回帰モデルの共変量センタリングは、固定効果線形モデルに類似したバイナリ結果であるとみなす条件付きロジスティックモデルと同じではないと理解したと思いました。コメントはありますか?
ndoogan

1
限界モデルを適合させないlme場合、デフォルトで制約される負の分散は> = 0になりますか?参照してくださいこの質問とその選択答えて化合物simmetry相関をフィッティング、すなわち、glsフィット感や設定correlation = corCompSymm(form = ~1|f)lme
FairMiles

1
@FairMilesおそらく...試してみて、このコメントスレッドに結果を投稿してみませんか?
ジェイクウェストフォール

3
再びありがとう、@ JakeWestfall。私はこれを数ヶ月にわたって約3回読み、毎回さまざまな方法で助けました。
ndoogan

3

かなりの熟考の後、私は自分の答えを発見したと信じています。計量経済学者は私の独立変数を内生的であると定義し、したがって独立変数と従属変数の両方と相関すると信じています。この場合、それらの変数は省略されるか、観察されません。ただし、省略された変数は変化するはずのグループ化を観察します。

計量経済学者は固定効果モデルを提案すると思います。つまり、この場合、すべてのグループ化レベルのダミー(または、多くのグループ化ダミーが不要になるようにモデルを調整する同等の仕様)を含むモデルです。固定効果モデルを使用すると、観測されていない変数および時間不変変数はすべて、グループ間(または個人間)の変動を調整することで制御できます。確かに、私の質問の2番目のモデルは、正確に固定効果モデルであり、そのため、予想どおりの推定値が得られます。

この状況をさらに明らかにするコメントを歓迎します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.