正の連続であると、およびカテゴリカルであるの3つの変数を考えるy
とx
、次のz
2つの候補モデルが与えられます。
fit.me <- lmer( y ~ 1 + x + ( 1 + x | factor(z) ) )
そして
fit.fe <- lm( y ~ 1 + x )
これらのモデルを比較して、どちらのモデルがより適切かを判断したいと思います。ある意味fit.fe
で内にネストされているように思えますfit.me
。通常、この一般的なシナリオが当てはまる場合、カイ2乗検定を実行できます。ではR
、次のコマンドでこのテストを実行できます。
anova(fit.fe,fit.me)
両方のモデルに(パッケージlmer
から生成されたlme4
)ランダム効果が含まれている場合、anova()
コマンドは正常に機能します。境界パラメーターがあるため、通常は、結果として得られるカイ2乗統計量をシミュレーションでテストすることをお勧めします。それでも、シミュレーション手順で統計量を使用できます。
両方のモデルに固定効果のみが含まれている場合、このアプローチ---および関連するanova()
コマンド---はうまく機能します。
ただし、上記のシナリオのように、1つのモデルにランダム効果が含まれ、削減モデルに固定効果のみが含まれる場合、anova()
コマンドは機能しません。
具体的には、次のエラーが発生します。
> anova(fit.fe, fit.me)
Error: $ operator not defined for this S4 class
上から(シミュレーションで)カイ二乗アプローチを使用することに問題はありますか?あるいは、これは単に、anova()
さまざまな関数によって生成された線形モデルを処理する方法を知らないという問題ですか?
言い換えれば、モデルから導出されたカイ2乗統計量を手動で生成することが適切でしょうか?もしそうなら、これらのモデルを比較するための適切な自由度は何ですか?私の計算で:
固定効果モデルの2つのパラメーター(勾配と切片)と混合効果モデルのさらに2つのパラメーター(ランダムな勾配とランダムな切片の分散パラメーター)を推定しています。通常、切片パラメーターは自由度の計算ではカウントされないため、およびであることを意味します。変量効果パラメーターの分散パラメーターを自由度の計算に含める必要があるかどうかはわかりませんが、固定効果パラメータの分散推定値は考慮されませんが、固定効果のパラメータ推定値は未知の定数であると想定され、未知の確率変数であると見なされるためと考えられますp = k + 2 = 3混合効果のため。この問題についていくつかの支援をお願いします。
最後に、誰かがR
これらのモデルを比較するためのより適切な(- ベースの)ソリューションを持っていますか?
lm()
でgls()
からnlme
パッケージ、およびlmer()
でlme()
(再びからnlme
パッケージ)、すべてが正常に動作します。ただし、より単純なモデルのパラメーターはパラメーター空間の境界にあるため、保守的なテスト(p値が大きすぎる)になることに注意してください。そして実際には、変量効果を含めるかどうかの選択は、統計的検定ではなく、理論(たとえば、サンプリング計画)に基づく必要があります。