15人の被験者の研究で、応答変数(res)が2つの説明変数でモデル化され、1つ(レベル)は5つのレベルのカテゴリカルであり、もう1つ(応答時間:RT)は連続的であるとします。Rのlme4パッケージのlmerを使用すると、次のようになります。
fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)
Df Sum Sq Mean Sq F value
level 4 3974.9 993.7 9.2181
RT 1 1953.5 1953.5 18.1209
level:RT 4 5191.4 1297.9 12.0393
2つの変数の順序を変更すると、主な効果の結果が少し異なります。
fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)
Df Sum Sq Mean Sq F value
RT 1 1671.8 1671.8 15.5077
level 4 4256.7 1064.2 9.8715
RT:level 4 5191.4 1297.9 12.0393
そのような違いは、データの変動性を説明する際のlme4での(限界ではなく)逐次的なアプローチによるものですか?この場合、変数の順序を変更しても大きな違いはありませんが、以前は劇的な違いがありました。そのような大きな違いはどういう意味ですか?大きな違いがなくなるまで、モデルはより多くのチューニングを必要とするということですか?
2番目の質問は、2つ(RTとレベル)のどの変数がより多くのデータの変動性を説明するかを知りたい場合、合理的なアプローチとは何ですか?2つの変数の合計平方(または平均平方)の相対的な大きさに基づいていますか?説明変数間のばらつきを比較する統計的検定方法はありますか?