線形混合効果モデリングにおける可変次数と考慮される変動性


9

15人の被験者の研究で、応答変数(res)が2つの説明変数でモデル化され、1つ(レベル)は5つのレベルのカテゴリカルであり、もう1つ(応答時間:RT)は連続的であるとします。Rのlme4パッケージのlmerを使用すると、次のようになります。

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

2つの変数の順序を変更すると、主な効果の結果が少し異なります。

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

そのような違いは、データの変動性を説明する際のlme4での(限界ではなく)逐次的なアプローチによるものですか?この場合、変数の順序を変更しても大きな違いはありませんが、以前は劇的な違いがありました。そのような大きな違いはどういう意味ですか?大きな違いがなくなるまで、モデルはより多くのチューニングを必要とするということですか?

2番目の質問は、2つ(RTとレベル)のどの変数がより多くのデータの変動性を説明するかを知りたい場合、合理的なアプローチとは何ですか?2つの変数の合計平方(または平均平方)の相対的な大きさに基づいていますか?説明変数間のばらつきを比較する統計的検定方法はありますか?


データを投稿できない場合、ANOVAだけでなく、少なくともモデル出力を出力できますか?
John

回答:


5

私はあなたの質問に一つずつ答えようとします:

そのような違いは、データの変動性を説明する際のlme4での(限界ではなく)逐次的なアプローチによるものですか?

正しい。ご覧のように、インタラクションについてのみ結果は同じです。相互作用はどちらの場合も最後にモデルに入力されるため、その項の結果は同じです。ただし、「レベル」を最初に入力し、次に「RT」を入力した場合、「RT」の結果は、「レベル」がモデル内にすでにある(およびその逆)後に「RT」が重要であるかどうかを示します。これらの結果は順序に依存します。

そのような大きな違いはどういう意味ですか?

両方の変数自体が応答変数に強く関連していると仮定しますが、それらも強く相関しています。その場合、応答変数には、モデルに2番目に入力された変数による説明が残された可変性がまったくない場合があります。したがって、説明変数が相関していると、劇的な違いが見られる傾向があります。

大きな違いがなくなるまで、モデルはより多くのチューニングを必要とするということですか?

「チューニング」の意味がわかりません。観察している現象自体は問題ではありませんが、結果の解釈が複雑になります(以下を参照)。

多分「チューニング」の1つの方法はこれです。説明変数の相関が高い場合、それらは本質的に同じものを測定している可能性があります。その場合、変数の1つを削除するか、それらを単一の変数に結合することにより、モデルを「調整」できます。

2番目の質問は、2つ(RTとレベル)のどの変数がより多くのデータの変動性を説明するかを知りたい場合、合理的なアプローチとは何ですか?2つの変数の合計平方(または平均平方)の相対的な大きさに基づいていますか?説明変数間のばらつきを比較する統計的検定方法はありますか?

説明変数が相関している場合、それらの相対的な重要性を判断することはかなり困難です。この問題は、多重回帰のコンテキストで頻繁に発生し、このトピックについて数十の記事が書かれており、この目標を達成するための多くの方法が提案されています。確かに最も適切な方法についてのコンセンサスはありません、そして、何人かの人々はそれを行う適切な方法がないとさえ提案するかもしれません。

正方形の合計は同じ数の自由度に基づいていないため、助けにはなりません。平均二乗は基本的にそれに対して正しいですが、平均二乗を使用する場合、これは対応するF値(またはp値)を使用して相対的な重要度を決定することに他なりません。ほとんどの人は、相対的な重要性を判断する適切な方法を考えていないと思います。

残念ながら、簡単な解決策はありません。代わりに、relaimpoパッケージの作成者からWebサイトを提案できます。混合効果モデルをフィッティングするときにパッケージは役に立たないと思いますが、あなたが扱っている問題に関する論文への参照がたくさんあります。

http://prof.beuth-hochschule.de/groemping/relaimpo/

AICcmodavgパッケージを調べることもできます。

http://cran.r-project.org/web/packages/AICcmodavg/index.html


説明とヘルプを本当に感謝します!混合効果モデルの各変数の相対的な重要性に関して、lme()によって提供されるAIC / BICの違いを考慮することは妥当ですか?たとえば、私のデータで3つのモデルを定義します:res〜RT、res〜level、res〜RT * level。次に、anova()を使用して、AIC / BICに基づいて相対的な重要度を評価しますか?
ブルーポール

AIC / BIC値は、モデルの選択によく使用されます。それがあなたの目標であれば、はい、これは1つのアプローチです。変数の相対的な重要度を決定することが目的の場合は、赤池の重みを使用できます。そのアイデアについての非常に素晴らしく明確なプレゼンテーションは、ここにあります:bit.ly/pDQ7eq
Wolfgang

たくさんの助けに感謝します。私はそれを本当に感謝しています...
ブルーポール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.