適切な相関構造を持つモデルにも自己相関残差パターンが残っていますか?また、最適なモデルを選択する方法はありますか?
環境 この質問ではRを使用していますが、一般的な統計の問題に関するものです。 私は、幼虫の個体数を年に1回、8年間にわたって12箇所からサンプリングした、ガの個体数の成長率に対する死亡率(病気と寄生による死亡率)の影響を分析しています。人口増加率データは、時間の経過とともに明確だが不規則な周期的傾向を示しています。 単純な一般化線形モデルからの残差(成長率〜%disease +%parasitism + year)は、同様に明確ではあるが不規則な周期的傾向を経時的に示しました。したがって、同じ形式の一般化最小二乗モデルも、複合対称性、自己回帰プロセス次数1、自己回帰移動平均相関構造などの時間的自己相関に対処するために、適切な相関構造でデータに適合しました。 モデルはすべて同じ固定効果を含み、AICを使用して比較され、REMLによって適合されました(AICによる異なる相関構造の比較を可能にするため)。Rパッケージnlmeとgls関数を使用しています。 質問1 GLSモデルの残差は、時間に対してプロットしたときに、ほぼ同じ周期的なパターンを表示します。自己相関構造を正確に説明するモデルであっても、そのようなパターンは常に残りますか? 2番目の質問の下で、Rのいくつかの単純化された類似のデータをシミュレートしました。これは、モデル残差の時間的に自己相関するパターンを評価するために必要なメソッドの現在の理解に基づいて問題を示していますが、これは間違っていることがわかっています(回答を参照)。 質問2 考えられるすべての相関構造を持つGLSモデルをデータに適合させましたが、実際には相関構造のないGLMよりも実質的に良好な適合はありません:1つのGLSモデルだけがわずかに優れています(AICスコア= 1.8低い)より高いAIC値。ただし、これはすべてのモデルがGLSモデルが明らかにはるかに優れているMLではなくREMLによって適合されている場合にのみ当てはまりますが、統計書から、REMLを使用して異なる相関構造と同じ固定効果を持つモデルを比較する必要があることを理解していますここでは詳しく説明しません。 明らかに時間的に自己相関するデータの性質を考えると、単純なGLMよりも適度に優れたモデルがない場合、適切な方法を使用していると仮定して、推論に使用するモデルを決定する最も適切な方法は何ですか(最終的に使用したい異なる変数の組み合わせを比較するAIC)? 適切な相関構造を持つモデルと持たないモデルの残差パターンを調査するQ1「シミュレーション」 「時間」の周期的効果と「x」の正の線形効果を持つシミュレートされた応答変数を生成します。 time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) yは、ランダムな変動を伴う「時間」にわたって周期的な傾向を表示する必要があります。 plot(time,y) そして、ランダムな変動を伴う「x」との正の線形関係: plot(x,y) 「y〜時間+ x」の単純な線形加法モデルを作成します。 require(nlme) m1 <- gls(y ~ time + x, method="REML") モデルは、予想されるように、「時間」に対してプロットされると、残差に明確な周期的パターンを表示します。 plot(time, m1$residuals) …