glmer出力の「固定効果の相関」をどのように解釈すればよいですか?


26

次の出力があります。

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

私のすべての連続変数(s変数名の前に小さい文字で表示)は標準化されています(zスコア)。seasonは、2つのレベル(初期および後期)cropのカテゴリ変数であり、3つのレベル(トウモロコシ、飼料、大豆)のカテゴリ変数です。

固定効果マトリックスのこの相関関係は、私を混乱させています。変数のペアの単純な回帰を見ると、すべての相関関係が反対の符号を持っているからです。つまり、固定効果マトリックスの相関関係はcropforage、との間に強い正の相関関係があることを示唆sbareしています。実際、これらの変数間に非常に強い負の相関関係がある場合-飼料作物はトウモロコシや大豆に比べて裸地がはるかに少ない傾向がありました。連続変数のペアには同じ問題があり、固定効果マトリックスの相関関係は、すべてが本来あるべきものの反対であると言います...これは、単純な回帰ではなく、モデルの複雑さによるものでしょうか?変数が標準化されているという事実と関係があるのでしょうか?

ありがとう。

回答:


27

「固定効果の相関」出力には、ほとんどの人に帰する直感的な意味がありません。具体的には、変数の相関関係ではありません(OPのメモとして)。実際には、回帰係数の予想される相関についてです。これは多重共線性を表していますが、必ずしもそうではありません。この場合、もう一度実験を行い、たまたま係数cropforageが小さくなった場合、の係数もそうなる可能性が高いことを示していますsbare

lme4 Baayenを扱った彼の著書「言語データの分析:Rを使用した統計の実践的導入」では、出力のその部分を抑制し、特別な場合にのみ有用であると宣言しています。 ここベイツ自身は出力の一部を解釈する方法について説明メーリングリストのメッセージは次のとおりです。

これは、固定効果の推定量のおおよその相関です。(「おおよそ」という言葉を含める必要がありますが、この場合、近似は非常に優れています。)それよりもうまく説明する方法がわかりません。モデル内のパラメーターからMCMCサンプルを取得し、固定効果パラメーターのサンプルがこの行列のような相関構造を表示すると想定するとします。


3
申し訳ありませんが、これはおそらくばかげた質問になりますが、なぜその相関を考慮することが重要なのでしょうか?つまり、どの状況でその出力を考慮する必要がありますか?
mtao

1
@Teresaそれは何に使用するかによります。解釈に関心がある場合、2つの効果のソースがどれほど混同しやすいかを示しています。予測に関心がある場合は、他の予測モデルがどのように見えるかについて少し説明し、予測子をドロップした場合にモデルがどのように変化するかについてのヒントを提供します。
-russellpierce

1
たとえば、出力に2つの変数があり、たとえば相関が0.90であるとします。解釈の観点から、私はそれらの1つをドロップすべきだと思います。なぜなら、それらは「混乱しやすく」同じ情報を伝えているように見えるからです。予測に関しては、それらのうちの1つをドロップしても、他のモデルはそれほど変化しないはずです。または、これを間違って解釈していますか?
mtao

3
ご存知のとおり、あなたは私が正しく言ったことを反映していると思います。しかし、熟考すると、私は100pctではないことを確信しています。新しい質問を開くと、あなたに最適なサービスが提供されます。これにより、あなたの質問により多くの目が届き、正解を受け取る可能性が高くなります。
-russellpierce

1
@russellpierce、この答えをありがとう。ただし、1つの質問として、予測子が相互に相関すると多重共線性が生じることを学びました。しかし、あなたの答えでは、多重共線性に影響を与える可能性のあるのは回帰係数の相関(予測子の相関ではない)であると言います。推定された係数ではなく、予測変数自体を相関させるだけではどうでしょうか?
軌跡

0

負の相関と正の相関の値が同じで、符号のみが異なる場合、変数を誤って入力しています。しかし、あなたはすでに統計がかなり進んでいるように見えるので、これはあなたには当てはまらないと思います。

あなたが経験している不一致は、多重共線性が原因である可能性があります。これは、いくつかの独立変数がオーバーラップした効果を共有する場合、または言い換えれば、それ自体が相関する場合を意味ます。たとえば、変数「成長率」および「腫瘍サイズ」へのモデリングは、より大きな腫瘍自体が(検出される前に)より高い成長率を有する可能性があり、おそらくそうであるため、多重共線性を引き起こす可能性があります。これはモデルを混乱させる可能性があります。また、モデルに相互に関連する独立変数がほとんどない場合、結果の解釈が非常に困難になることがあります。一部の相関の符号が反転する程度にさえ、それは時々完全に奇妙な係数につながります。

最初に多重共線性の原因を検出し、それらを処理してから、分析を再実行する必要があります。


1
-1; 誤解を招く。OPは変数を誤って入力しなかったため、多重共線性は問題になりません。生の固定効果間の相関関係はこの点を示しているかもしれませんが、シンプソンのパラドックスは、そのアプローチが間違った方向にあなたを導く可能性があります。
-russellpierce

1
なぜ「誤解を招く」のですか?どの部分が誤解を招きましたか?私は非常に明確に話し、明確な結論を推測することを避けました。私が言ったことは、実際には多重共線性の兆候の1つであり、VIFもチェックする必要があることを示しています。しかし、「OPが変数を誤って入力しておらず、多重共線性が問題にならない可能性がある」ことをどのように知っているか、または確信していないのですか。
ヴィック

1
それに、あなたは私の投稿を完全に読んでいませんでした(そしてそれを否定し、誤解を招くものと呼んでいます)。持っていた場合、OPがVIF(multiCの公式指標として)をチェックして、これらの高い相関が実際にMCを指しているかどうかを確認することを提案したことがわかりましたか?しかし、とにかく、慢や個人的な攻撃がない限り、私は学んでも大丈夫です。
ヴィック

1
@Vic:コメントは今まで見ませんでした。私の回答を個人的な攻撃とみなすつもりはありませんでした。私はそれが誤解を招くものであるとの意見であり、私は上記の正しい答えであると信じるものを提供しました。その時点であなたの投稿全体を読みました。コメントを掘り下げたかどうかはわかりません。私は下票を支持します。
ラッセルピアス14

1
...しかし、私はその判断に誤解される可能性があります。しかし、単に投票するのではなく、なぜ私が投票したのかを説明したほうが良いように思えました。
ラッセルピアス14

0

モデルの「vcov」を相関行列に変換することにより、固定効果間のこれらの相関が得られることを示すことが役立つ場合があります。もしはfit、その後、あなたのフィットlme4モデルです

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

また、固定効果間の相関は、非対角要素です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.