レベルごとに1つの観測値を持つ混合モデル


12

ランダム効果モデルglmerをいくつかのビジネスデータに適合させています。目的は、地域のばらつきを考慮して、販売業者による販売実績を分析することです。次の変数があります。

  • distcode:約800レベルのディストリビューターID
  • region:最上位の地理的ID(北、南、東、西)
  • zone:ネストされた中レベルの地理region、全部で約30レベル
  • territory:内zoneにネストされた低レベルの地理、約150レベル

各ディストリビューターは1つの地域でのみ営業しています。トリッキーな部分は、これが要約データであり、ディストリビューターごとに1つのデータポイントがあることです。したがって、800個のデータポイントがあり、正規化された方法ではあるが(少なくとも)800個のパラメーターを近似しようとしています。

次のようにモデルを適合させました:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

メモは出力されますが、これは問題なく実行されます。

変量効果のグループ化因子のレベル数は、観測値の数nに等しい

これは賢明なことですか?すべての係数の有限推定値が得られ、AICも不合理ではありません。IDリンクを使用してポアソンGLMMを試すと、AICの方がはるかに悪いので、少なくともログリンクは出発点として適切です。

近似値と応答をプロットすると、ディストリビューターごとに1つのデータポイントがあるため、本質的に完全な近似が得られます。それは合理的ですか、または私は完全に愚かなことをしていますか?

これは1か月間のデータを使用しています。複数の月のデータを取得し、その方法でレプリケーションを行うことができますが、月ごとの変動と可能な相互作用については新しい用語を追加する必要がありますか?


ETA:上記のモデルをもう一度実行しましたが、family引数はありません(GLMMではなくガウスLMMにすぎません)。今、lmer私に次のエラーが発生しました:

エラー(関数(fr、FL、start、REML、verbose)):ランダム効果のグループ化因子のレベル数は、観測値の数より小さくなければなりません

ですから、家族を変えても効果はないはずなので、私は賢明なことをしていないと思います。しかし今の問題は、そもそもなぜ機能したのかということです。

回答:


4

概念的な根拠での観測と同じ数のグループがあり、「グループ」がなく、計算上の根拠がある場合、モデルが特定の問題を抱えているはずであるため、混合モデルを適合させる慣行に強く反対します少なくともLMMの。(私はLMMでのみ動作しますが、少し偏っていることもあります。:))

yNバツβZDZT+σ2Dσ2

(「合理的な」AICの意味がわかりません。AICは、データを過剰に適合させているにもかかわらず、「何かを計算している」という意味で計算可能でなければなりません。)

glmeryバツβバツβ>0glmer

概念的な部分:これはもう少し「主観的」であるが、もう少し簡単だと思う。Mixed Effを使用します。これは、エラーにグループ関連の構造があることを本質的に認識したためです。データポイントと同じ数のグループがある場合、表示される構造はありません。「グループ化」に起因する可能性のあるLMエラー構造の偏差は、特定の観測ポイントに起因するようになりました(したがって、過剰適合モデルになります)。

一般に、単一の観測グループは少し厄介な傾向があります。r-sig-mixed-modelsメーリングリストからD.Batesを引用するには:

単一観測グループを含めるか除外するかにかかわらず、モデルの適合にはほとんど差がないことがわかると思います。試してみてください。


1
これは線形設定ではあまり意味がないように思えますが、ポアソン回帰では非常に有用です。私は、Ben Bolkerがこの件について言ったことへのリンクを追跡できるかどうかを確認します(彼はDoug Batesとともにlme4の開発者の一人です)。
デビッドJ.ハリス

ええ、私が言ったように、おそらく私はLMMの大部分について考えることに偏っていて、「概念的な部分」についてコメントしていました。glmerしかし、とにかくこれがうまくいく理由を説明しました(あまり満足していませんが)。
usεr11852は回復モニック言う

8

応答変数としてカウントデータが過剰分散している場合、観測ごとに1つのレベルが非常に役立ちます。これは、カウントデータがポアソン対数正規分布から得られることを期待している、つまり、ポアソン分布のラムダパラメーターがモデルの予測変数によって完全に決定されておらず、可能性が対数正規分布していると言うことと同等です。

lme4の開発者の1人であるBen Bolkerは、これを使用して2つのチュートリアルのような例を実行しました。合成データを使用した最初のものは、もう少し詳しく説明します。pdfをここで見つけることができます。また、フクロウが関与する実際のデータを使用した探索的データ分析も行っています(pdfおよびRコードはこちらから入手できます)。


1
+1。あなたの言うことに同意します。私は私のオリジナルのポストで述べたように:「『観測など多くのグループとして持つの問題を動き回る過分散は(...)あなたはどのようにある』」の優れたポイントを作ってくれてありがとうglmer概念的な方法で。
usεr11852は回復モニック言う

1
リンクをありがとう!それらを読んで、私のモデルの適合値を詳しく見てみると、何が起こっているのかがよくわかります。実際、Benがしていることは私の分析に適しているとは思いません。彼は観測レベルの変数を使用して過分散を可能にしているため、迷惑な効果のようです。私の分析でdistributorは、興味深い効果があります。他の変数を許可する場合に、ディストリビューターが互いにどのように機能するかを確認したいと思います。したがって、オーバーフィッティングが真の関心事である従来の線形混合モデルに匹敵します。
香港大井
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.