長期的な収集データがあり、収集した動物の数が天候の影響によって影響を受けるかどうかをテストしたいと思います。私のモデルは以下のようになります:
glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) +
SampSize + as.factor(samp.prog) + (1|year/month),
control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)),
family="poisson", data=a2)
使用される変数の説明:
- SumOfCatch:収集された動物の数
- pc.act.1、pc.act.2:サンプリング中の気象条件を表す主成分の軸
- pc.may.1、pc.may.2:5月の気象条件を表すPCの軸
- SampSize:落とし穴トラップの数、または標準の長さのトランセクトの収集
- samp.prog:サンプリングの方法
- 年:サンプリングの年(1993年から2002年まで)
- 月:サンプリングの月(8月から11月まで)
フィットされたモデルの残差は、フィットされた値に対してプロットすると、かなりの不均一性(異分散性?)を示します(図1を参照)。
私の主な質問は、これは私のモデルの信頼性を疑わしいものにする問題ですか?もしそうなら、それを解決するために私は何ができますか?
これまでのところ、私は以下を試しました:
- 観測レベルの変量効果を定義することによって過剰分散を制御します。つまり、観測ごとに一意のIDを使用し、このID変数を変量効果として適用します。私のデータはかなりの過剰分散を示していますが、残差がさらに醜くなったため、これは役に立ちませんでした(図2を参照)
- ランダムエフェクトのないモデルを、準ポアソンglmとglm.nbでフィッティングしました。元のモデルと同様の残差プロットと近似プロットも生成しました
私の知る限り、異分散性一貫性のある標準誤差を推定する方法はあるかもしれませんが、Rのポアソン(または他の種類の)GLMMに対してそのような方法を見つけることはできませんでした。
@FlorianHartigへの応答:データセット内の観測値の数はN = 554であり、これはかなりの観測値だと思います。そのようなモデルの数ですが、もちろん、より多くの陽気です。2つの図を投稿します。最初の図は、DHARMaでスケーリングされたメインモデルの残差プロット(Florianが推奨)です。
2番目の図は2番目のモデルからのもので、唯一の違いは観測レベルの変量効果が含まれていることです(最初のモデルには含まれていません)。
更新
気象変数(予測子、つまりx軸)とサンプリングの成功(応答)の関係の図:
アップデートII。
予測値と残差を示す図: