ランダム効果モデルglmer
をいくつかのビジネスデータに適合させています。目的は、地域のばらつきを考慮して、販売業者による販売実績を分析することです。次の変数があります。
distcode
:約800レベルのディストリビューターIDregion
:最上位の地理的ID(北、南、東、西)zone
:ネストされた中レベルの地理region
、全部で約30レベルterritory
:内zone
にネストされた低レベルの地理、約150レベル
各ディストリビューターは1つの地域でのみ営業しています。トリッキーな部分は、これが要約データであり、ディストリビューターごとに1つのデータポイントがあることです。したがって、800個のデータポイントがあり、正規化された方法ではあるが(少なくとも)800個のパラメーターを近似しようとしています。
次のようにモデルを適合させました:
glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)
メモは出力されますが、これは問題なく実行されます。
変量効果のグループ化因子のレベル数は、観測値の数nに等しい
これは賢明なことですか?すべての係数の有限推定値が得られ、AICも不合理ではありません。IDリンクを使用してポアソンGLMMを試すと、AICの方がはるかに悪いので、少なくともログリンクは出発点として適切です。
近似値と応答をプロットすると、ディストリビューターごとに1つのデータポイントがあるため、本質的に完全な近似が得られます。それは合理的ですか、または私は完全に愚かなことをしていますか?
これは1か月間のデータを使用しています。複数の月のデータを取得し、その方法でレプリケーションを行うことができますが、月ごとの変動と可能な相互作用については新しい用語を追加する必要がありますか?
ETA:上記のモデルをもう一度実行しましたが、family
引数はありません(GLMMではなくガウスLMMにすぎません)。今、lmer
私に次のエラーが発生しました:
エラー(関数(fr、FL、start、REML、verbose)):ランダム効果のグループ化因子のレベル数は、観測値の数より小さくなければなりません
ですから、家族を変えても効果はないはずなので、私は賢明なことをしていないと思います。しかし今の問題は、そもそもなぜ機能したのかということです。