混合モデルでの特異フィットの扱い


16

モデルがあるとしましょう

mod <- Y ~ X*Condition + (X*Condition|subject)

# Y = logit variable  
# X = continuous variable  
# Condition = values A and B, dummy coded; the design is repeated 
#             so all participants go through both Conditions  
# subject = random effects for different subjects 

summary(model)
Random effects:
 Groups  Name             Variance Std.Dev. Corr             
 subject (Intercept)      0.85052  0.9222                    
         X                0.08427  0.2903   -1.00            
         ConditionB       0.54367  0.7373   -0.37  0.37      
         X:ConditionB     0.14812  0.3849    0.26 -0.26 -0.56
Number of obs: 39401, groups:  subject, 219

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       2.49686    0.06909   36.14  < 2e-16 ***
X                -1.03854    0.03812  -27.24  < 2e-16 ***
ConditionB       -0.19707    0.06382   -3.09  0.00202 ** 
X:ConditionB      0.22809    0.05356    4.26 2.06e-05 ***

ここでは、切片とx変量効果の相関が-1であるため、特異フィットを観察します。ここで、この有用なリンクによると、このモデルに対処する1つの方法は、高次のランダム効果(X:ConditionBなど)を削除し、特異性をテストするときに違いが生じるかどうかを確認することです。もう1つは、ベイジアンアプローチを使用blmeすることです。たとえば、特異性を避けるためにパッケージを使用します。

優先される方法とは何ですか?なぜですか?

1つ目または2つ目を使用すると異なる結果が生じるため、これを質問します。最初のケースでは、X:ConditionBランダム効果を削除し、XとX:ConditionBランダム効果の間の相関を推定できなくなります。一方、を使用blmeすると、X:ConditionBを維持し、特定の相関を推定できます。ベイジアンアプローチですべてを推定できる場合、特異フィットが発生したときに非ベイズ推定を使用してランダム効果を削除する必要がある理由はわかりません。

誰かが特異フィットを処理するためにどちらの方法を使用してもメリットと問題を説明できますか?

ありがとうございました。


そのcorr = -1について何を心配していますか?それは変量効果間の相関です。
user158565 2018年

したがって、各被験者はYの2つの測定値を提供します。1つは条件Aで、もう1つは条件Bでですか。それが真である場合、連続変数Xの値が、条件AとBの間の任意の特定の対象について変化するかどうかも教えてください。
Isabella Ghement

なぜ変量効果に条件を入れるのですか?必要かどうかをテストしましたか?
Dimitris Rizopoulos

@ user158565はい、しかしそれは特異性を示しています...
User33268 '28

@IsabellaGhement確かに。はい、あります。xは、AとBの間の任意のサブジェクトで変化します。さらに、XでのYの回帰がすべてのサブジェクトで異なると仮定する理論的な理由があります
User33268

回答:


21

特異フィットを取得する場合、これは多くの場合、モデルが過剰適合であることを示しています。つまり、変量効果構造が複雑すぎてデータでサポートできないため、変量効果の最も複雑な部分を削除するようにアドバイスされます。構造(通常はランダムな勾配)。このアプローチの利点は、過剰適合ではない、より簡潔なモデルにつながることです。

しかし、何かを行う前に、あなたが望むのために良い理由を持っているXConditionすべては最初の場所で、被写体によって変化すること、およびそれらの相互作用?データの生成方法の理論はこれを示唆していますか?

最大のランダム効果構造でモデルを適合させlme4、特異な適合を取得する場合、ベイジアンフレームワークに同じモデルを適合させると、トレースプロットを検査し、さまざまなパラメーター推定値がどの程度収束するかによって、問題が発生した理由を 非常によくlme4知ることができます。 。ベイジアンアプローチを採用する利点は、そうすることで、元のモデルの問題を明らかにできることです。最大の変量効果の構造がデータでサポートされていない理由)、またはlme4モデルに適合できない理由が明らかになる場合があります。有益な事前分布を使用しない限り、ベイジアンモデルがうまく収束しない状況に遭遇しました。

つまり、どちらのアプローチにもメリットがあります。

ただし、私は常に、最も適切な変量効果の構造を決定するために、初期モデルが節約され、専門家の知識によって情報を得られる場所から始めます。グループ化変数の指定は比較的簡単ですが、通常、ランダムな勾配を含める必要はありません。それらが理論的に適切な意味を持ち、データによってサポートされている場合にのみそれらを含めます。

編集:最大ランダム効果構造に適合する理論的な理由があることがコメントで言及されています。だから、同等のベイズモデルを続行するには、比較的簡単な方法はへの呼び出しを交換することであるglmerstan_glmerrstanarmパッケージ-プラグアンドプレイできるように設計されています。デフォルトの事前分布があるため、モデルをすばやく適合させることができます。パッケージには、収束を評価するための多くのツールも含まれています。すべてのパラメーターが妥当な値に収束していることがわかった場合は、問題ありません。ただし、いくつかの問題がある可能性があります。たとえば、ゼロ以下で推定される分散、またはドリフトし続ける推定などです。mc-stan.orgサイトには、豊富な情報とユーザーフォーラムがあります。


1
はい、理論上の理由から、XでのYの回帰は被験者間で条件AとBで異なって変化するはずであると想定する十分な理由があります。回帰は処理スタイルを意味します。トレースプロットを特異点の原因の診断ツールとして解釈する方法の詳細を教えてください。
User33268

11

これは非常に興味深いスレッドで、興味深い回答とコメントが含まれています。これはまだ取り上げられていないので、(私が理解しているように)各対象のデータは非常に少ないことを指摘しておきたいと思います。実際、各サブジェクトには、応答変数Y、カテゴリ変数Conditionおよび連続変数Xのそれぞれについて2つの値しかありません。特に、Conditionの2つの値はAとBであることがわかります。

混合効果モデリングの代わりに2段階の回帰モデリングを追求する場合、特定の対象からのデータに線形回帰モデルを適合させることさえできませんでした。

y <- c(4, 7)
condition <- c("A", "B")
condition <- factor(condition)
x <- c(0.2, 0.4)

m <- lm(y ~ condition*x)
summary(m)

このサブジェクト固有のモデルの出力は次のようになります。

Call:
lm(formula = y ~ condition * x)

Residuals:
ALL 2 residuals are 0: no residual degrees of freedom!

Coefficients: (2 not defined because of singularities)
         Estimate Std. Error t value Pr(>|t|)
(Intercept)         4         NA      NA       NA
conditionB          3         NA      NA       NA
x                  NA         NA      NA       NA
conditionB:x       NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1,     Adjusted R-squared:    NaN 
F-statistic:   NaN on 1 and 0 DF,  p-value: NA

2つの観測値のみを使用して4つの回帰係数と誤差標準偏差を推定しようとしているため、モデルの当てはめは特異点の影響を受けることに注意してください。

特異性は、この条件を各条件下で1回ではなく2回観察した場合でも持続します。ただし、各条件で3回対象を観察した場合、特異点は取り除かれます。

y <- c(4, 7, 3, 5, 1, 2)
condition <- c("A", "B", "A","B","A","B")
condition <- factor(condition)
x <- c(0.2, 0.4, 0.1, 0.3, 0.3, 0.5)

m2 <- lm(y ~ condition*x)
summary(m2)

これは、この2番目の例に対応するR出力であり、特異点が消えています。

>     summary(m2)

Call:
lm(formula = y ~ condition * x)

Residuals:
    1       2       3       4       5       6 
1.3333  2.3333 -0.6667 -1.1667 -0.6667 -1.1667 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept)     4.667      3.555   1.313    0.320
conditionB      6.000      7.601   0.789    0.513
x             -10.000     16.457  -0.608    0.605
conditionB:x   -5.000     23.274  -0.215    0.850

Residual standard error: 2.327 on 2 degrees of freedom
Multiple R-squared:  0.5357,    Adjusted R-squared:  -0.1607 
F-statistic: 0.7692 on 3 and 2 DF,  p-value: 0.6079

もちろん、混合効果モデルは、各被験者の無関係な個別の線形回帰モデルには適合しません-切片や勾配が典型的な切片や勾配に対してランダムに逸脱する「関連する」モデルに適合します。典型的な切片および/または典型的な勾配は、平均ゼロと未知の標準偏差を持つ正規分布に従います。

それでも、私の直感は、混合効果モデルが、各被験者で使用できる少量の観測値(2のみ)に苦労していることを示唆しています。ランダムな勾配がモデルにロードされるほど、モデルはより困難になります。各被験者が2つではなく6つ(つまり、条件ごとに3つ)の観測値を提供した場合、ランダムな勾配のすべてに対応するのに苦労することはなくなると思います。

これは、現在の研究デザインが複雑なモデリングの野心をサポートしていない(?)ケースである可能性があるように思えます-これらの野心をサポートするには、各被験者の各条件で(または少なくともいくつかの科目?)。これは私の直感にすぎないので、他の人が上記の私の観察に彼らの洞察を追加してくれることを願っています。前もって感謝します!


私はあなたを訂正しなければなりません-各参加者は、AとBの両方の条件で、XとYの両方について30の観測値を持っています!
User33268

2
ああ、それはあなたの最初の回答では示されていなかったので、私があなたが実際に持っている被験者と状態ごとの観察数を推測するのは不可能だったでしょう。そのとき何か他のことが起こっています。X変数を標準化してみましたか?それはlmeの適合に役立ちますか?また、Y = Xのプロット(または標準化されたX)の条件= Aと条件= Bのプロットを被験者ごとに個別に確認しましたか?それはあなたに何が起こっているかについての追加の手がかりを与えるかもしれません。
Isabella Ghement

xは反応時間データであり、回帰係数の解釈に重要であるため、標準化しませんでした。ただし、データは一元化されました。私は個々のプロットを調べて見ていきます...
User33268 '29

1
@ User33268パーティーに少し遅れますが、標準化された係数を解釈できます。スケーリングに使用される値を保存し、モデルの実行後に逆変換するだけです。
Frans Rodenburg、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.