混合サイトとマルチサイト研究のプーリング標準エラー-混合モデルの方が効率的である理由


16

いくつかのサイトからの「壊れた棒」の毎月の症例数からなるデータセットを持っています。私は2つの異なる技術から単一の要約推定値を取得しようとしています:

手法1:インジケーター変数0/1のポアソンGLMで「壊れたスティック」を取り付け、時間とtime ^ 2変数を使用して時間の傾向を制御します。この0/1インジケーター変数の推定値とSEは、モーメント法のかなりまっすぐな上下方法を使用して、またはRのtlniseパッケージを使用して「ベイジアン」推定値を取得してプールされます。これは、PengとDominiciが大気汚染データで行うことと似ていますが、サイトが少なくなります(1ダース)。

手法2:時間の傾向に対するサイト固有の制御の一部を放棄し、線形混合モデルを使用します。特に:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

私の質問には、これらの推定から生じる標準誤差が含まれます。手法1の標準誤差は、実際には月単位ではなく週単位の時間セットを使用しているため、精度が向上しますが、モーメント法の推定では〜0.206、tlniseでは〜0.306の標準誤差があります。

lmerメソッドは、〜0.09の標準エラーを提供します。効果の推定値はかなり近いため、混合モデルが非常に効率的である限り、異なる要約推定値に焦点を合わせているだけではないようです。

それは期待に値することですか?もしそうなら、なぜ混合モデルはそれほど効率的ですか?これは一般的な現象ですか、それともこのモデルの特定の結果ですか?


テクニック1にどのモデルが適合するかを正確に知ることなく、この質問に答えることは困難です。その後、「テクニック1の標準エラー[...]は〜0.206です」と言います。これは正確にどのモデルの標準誤差ですか?テクニック2で行ったように、このモデルのあてはめに使用した構文を投稿しますか?さらに良いのは、両方のモデルに適合できる再現可能な例を提供することです(元のデータセットである必要はありません)。
ジェイクウェストフォール

@JakeWestfallそうですね、私がこれを最初に書いたとき、それは問題が発生するにつれて意識の質問の流れでした。編集を行い、さらに役立つかどうかを確認します。残念ながら、コードはどこかでさまよいました
...-Fomite

少し後始末-モデルの設計は同じ変数を使用します。残念ながら、コード、データなどは別のマシン上にあり、私は会議中です。根本的な質問は、「複数サイトの推定:混合モデルは常に/しばしばプールよりも効率的ですか?」に要約できます。
フォマイト

回答:


5

私はこれが古い質問であることを知っていますが、比較的人気があり、簡単な答えがあるので、将来的に他の人に役立つことを願っています。詳細については、Christoph Lippertの線形混合モデルのコースをご覧くださいここでは、ゲノムワイドな関連性の研究のコンテキストでそれらを調べます。特に、講義5を参照してください。

混合モデルが非常にうまく機能する理由は、制御しようとしているもの、つまり人口構造を正確に考慮するように設計されているからです。調査の「人口」は、たとえば、同じプロトコルのわずかに異なるが一貫した実装を使用している異なるサイトです。また、調査の対象が人である場合、異なるサイトからプールされた人は、同じサイトの人よりも血縁が低い可能性が高いため、血縁関係も同様に役割を果たす可能性があります。

我々はモデル線形標準最尤とは対照的にの混合モデルは、追加のマトリックスに加える線形カーネル行列と呼ばとの間の類似性を推定し、同様の個人が同様のランダム効果を持つように、「ランダム効果」に適合します。これにより、モデルます。N(Y|Xβ,σ2)KNY|バツβ+Zあなたはσ2+σg2K

母集団構造を明示的に制御しようとしているため、線形混合モデルが他の回帰手法より優れていることは驚くことではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.