カテゴリー変数と連続変数の間の相互作用の係数の解釈


9

連続変数とカテゴリー変数間の相互作用の係数の解釈について質問があります。これが私のモデルです:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

モデルの方程式は次のとおりです。

E [cog] = a + b1(lg_hag)+ b2(educa2 * lg_hag)+ b3(educa3 * lg_hag)+ b4(educa4 * lg_hag)+ b5(pdg、centered)+他のコバール

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

私の質問は次のとおりです。私の解釈が正しい場合、b1とb2の信頼区間から相互作用の各効果推定(例:b1 + b2)の信頼区間を構築する方法。


Rでそれを行う方法にあまり詳しくありません
。sasで

回答:


7

モデルの係数の解釈は完全に正確ではありません。まず、モデルの条件を要約します。

カテゴリー変数(因子): 、、racesexeduca

因子にraceは4つのレベルがあります:。race={white,black,mexican,multi/other}

因子にsexは2つのレベルがあります:。sex={male,female}

因子にeducaは5つのレベルがあります:。educa={1,2,3,4,5}

デフォルトでは、Rはカテゴリー変数の扱いの対比を使用します。これらの対照的に、因子の最初の値は参照レベルとして使用され、残りの値は参照に対してテストされます。カテゴリー変数の対比の最大数は、レベル数から1を引いた数に等しくなります。

の対比raceにより、次の違いをテストできます: 、、および。race=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white

因子場合、参照レベルはであり、コントラストのパターンは類似しています。これらの影響は、従属変数の違いとして解釈できます。あなたの例では、の平均値は、と比較して方が単位高くなっています()。educa1cog13.8266educa=2educa=1as.factor(educa)2

重要な注意点:カテゴリー変数の処理コントラストがモデルに存在する場合、追加の効果とカテゴリー変数間の相互作用も含まれている場合、追加の効果の推定は、カテゴリー変数の参照レベルに基づいて行われます。変数が交互作用の一部でない場合、その係数は、残りのすべてのカテゴリ変数に沿ったこの変数のサブセットの個々の勾配の平均に対応します。効果と他の変数の因子レベルに対する平均効果に対応しています。全体的な影響をテストするには、とモデルから必要があります。raceeducaraceeducasex

数値変数: およびlg_hagpdg

lg_hagpdgはどちらも数値変数であるため、係数は予測変数の増加に関連する従属変数の変化を表します。1

原則として、これらの影響の解釈は簡単です。ただし、交互作用が存在する場合、係数の推定は、因子の参照カテゴリーに基づいていることに注意してください(治療コントラストが採用されている場合)。は作用の一部ではないため、その係数は、変数の平均勾配に関連して相関します。変数また、との相互作用の一部である。したがって、その影響は(基本レベル)に当てはまります。; 因子のレベルに関係なく、数値変数全体的な影響のテストではありません。pdglg_hageducaeduca=1lg_hag

カテゴリー変数と数値変数の相互作用: lg_hag×educa

モデルは、数値変数間の主効果だけでなく、相互作用が含まれていませんとに関連する4つのコントラスト。これらの影響は、特定のレベルのと参照レベル()の間の勾配の違いとして解釈できます。lg_hageducalg_hageducaeduca=1

たとえば、lg_hag:as.factor(educa)2-21.2224)の係数は、勾配がと比較して場合単位低いことを意味します。21.2224 e d u c a = 2 e d u c a = 1lg_hag21.2224educa=2educa=1


「これらの相互作用係数もまたrace=whitesex=male唯一成り立つ。」これでよろしいですか?どちらracesexこのlg_hag×educa用語と相互作用していないので、私は尋ねます...私はこれが明確に示されていないいくつかのテキストを見ています。
landroni

2
@landroni勾配は、残りのすべての予測変数が0に等しいされている点について推定されている
はSvenホーエンシュタイン

ええ、それも私の理解です。他のすべての予測子は一定に保たれます。つまり、因子はベースラインレベルに固定されます。しかし、その中には私の難問があります。私は、この微妙でありながら広範囲にわたるニュアンスについてほとんど光沢がないように見えるいくつかの本を見てきました。係数は完全なサンプルオーバー無条件であるかのようにまた、論文はしばしば「業界による制御は、」まだ代わりに、これが唯一のベースラインレベルのためのものであることを選び出しで、結論を出す。..参照:stats.stackexchange.com/questions/146665/を…
landroni

1
「カテゴリー変数の治療の対比がモデルに存在する場合、さらなる効果の推定は、カテゴリー変数の参照レベルに基づいています。」さらに検討した結果、確信が持てません(または、あなたの主張には完全には従いません)。たとえば、ベータの推定値がpdg参照レベルに依存することを示唆しているようですが、これは明らかにそうではありません。いずれかの要因の参照レベルを変更した場合(例sexpdg
:)

1
@landroniご指摘ありがとうございます。あなたの言う通り、この発言は誤解を招くものです。実際には、カテゴリ変数との交互作用項の一部でもある予測子にのみ当てはまります。したがって、の推定は、pdg実際にはコントラストの仕様に依存しません。それに応じて答えを修正します。
Sven Hohenstein、2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.