これら2つの回帰モデルの基本的な違いは何ですか?


10

有意な相関がある2変量応答があるとします。これらの結果をモデル化する2つの方法を比較しようとしています。1つの方法は、2つの結果の違いをモデル化することです: 別の方法は、それらを使用またはモデル化することです: Y 、I 、J = β 0 + 時間+ X ' β

(yi2yi1=β0+Xβ)
glsgee
(yij=β0+time+Xβ)

fooの例を次に示します。

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

基本的な違いは何だfit1とはfit2?そしてとの間fit2fit3それらが値と推定値に非常に近いとすれば、p


7
fit1とfit3の違いは、主のパラドックスと呼ばれることもあります。いくつかの議論(モデル間で推定値が変わらない理由)およびPaul Allisonの記事stats.stackexchange.com/a/15759/1036への参照については、こちらを参照してください。もう1つの参考文献はHolland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.
アンディW

回答:


1

最初に、私は私の答えの中で議論のためのさらに4番目のモデルを紹介します:

fit1.5 <-lm(y_2〜x_1 + x_2 + y_1)

パート0
fit1とfit1.5の違いは、制約付きの違いと最適な違いの違いとして最もよくまとめられています。

これについては、上記の例よりも簡単な例を使用して説明します。まずはfit1.5から始めましょう。モデルのより単純なバージョンは、 。もちろん、OLS推定を取得すると、「最適な」選択が見つかります。そして、そのように書くのは奇妙に思えますが、式をように書き直す ことができます。これは、2つの変数間の「最適な」差と考えることができます。b 2 y 2 - b 2y 1 = b 0 + b 1x y

y2=b0+b1·x+b2·y1
b2
y2b2·y1=b0+b1·x
y

ここで、制約を決定した場合、式/モデルは これは(制約された)差にすぎません。b2=1

y2y1=b0+b1·x

上記のデモンストレーションで、二分変数、事前テスト、を事後テストのスコアのペアにすると、制約付きの差分モデルは、スコアのゲインの独立したサンプルテストになります。一方、最適な差異モデルはANCOVA検定であり、事前検定スコアが共変量として使用されます。xy1y2t

パート1
fit2のモデルは、上記で使用された差分アプローチと同様の方法で最もよく考えることができます。これは過度に単純化されていますが(意図的にエラー項をしているため)、モデルはとしてことができます。 ここで、値は、値はです。 。これは単純化しすぎています...これで書きましょう 別の方法で書き。モデルfit1.5は、OLS分析の最適な差異を作成するための値としてを持っていましたが、ここでは

y=b0+b1·x+b2·t
t=0y1t=1y2 y2y1=b2b2b2y
y1=b0+b1·xy2=b0+b1·x+b2
y2y1=b2b2b2本質的には、(他の共変量を制御した後の)値間の平均差です。y

パート2
では、モデルfit2とfit3の違いは何ですか...実際にはほとんどありません。fit3モデルは相関を誤差の項で考慮しますが、これは推定プロセスを変更するだけなので、2つのモデル出力間の差は最小限になります(fit3が自己回帰係数を推定するという事実を超えて)。

パート2.5
そして、私はこのディスカッションにさらにもう1つのモデルを含めます

fit4 <-lmer(y〜time + x1 + x2 +(1 | id)、data = df.long)

この混合効果モデルは、自己回帰アプローチのわずかに異なるバージョンを実行します。変量効果に時間係数を含める場合、これは各被験者の間の差を計算することに相当します。(しかし、これは機能せず、モデルは実行されません。)y

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.