GEE:適切な作業相関構造の選択


19

私は、コホート研究を適切に分析するためにGEEを理解しようとする疫学者です(ログリンクでポアソン回帰を使用して、相対リスクを推定します)。「作業相関」についていくつかの質問がありますので、もっと知識のある人に明確にしてもらいたいです。

(1)同じ個人で測定を繰り返した場合、通常、交換可能な構造を想定するのが最も合理的ですか?(または、測定値が傾向を示す場合は自己回帰)?独立性についてはどうですか?同じ個人の測定値について独立性を仮定できるケースはありますか?

(2)データを調べて適切な構造を評価する(合理的に単純な)方法はありますか?

(3)独立構造を選択するとき、単純なポアソン回帰(R、関数glm()、およびgeeglm()パッケージを使用)を実行するときと同じポイント推定値(ただし標準誤差は低い)が得られることに気付きましたgeepack。なぜこうなった?GEEでは、母集団平均モデルを推定する(対象固有とは対照的に)ので、線形回帰の場合にのみ同じポイント推定値を取得する必要があることを理解しています。

(4)コホートが複数のロケーションサイトにある場合(ただし、個人ごとに1つの測定)、独立性または交換可能な作業相関を選択する必要がありますか?つまり、各サイトの個人はまだ互いに独立しているということですか?? したがって、たとえば、被験者固有のモデルの場合、サイトをランダム効果として指定します。しかし、GEEの場合、独立性と交換可能性は異なる推定値を与えるため、基礎となる仮定の点でどちらが優れているかはわかりません。

(5)GEEは、2レベルの階層的クラスタリング、つまり、個人ごとに繰り返し測定されるマルチサイトコホートを処理できますか?はいの場合geeglm()、第1レベル(サイト)が「独立」で、第2レベル(個人)が「交換可能」または「自己回帰」であると想定する場合、クラスタリング変数として何を指定し、作業相関を何に指定する必要がありますか?

これらはかなりの数の質問であり、それらのいくつかはかなり基本的なものであると理解していますが、それでも私(および他の初心者?)が把握するのは非常に困難です。それで、どんな助けも大いにそして心から感謝します、そして、これを示すために、私は賞金を始めました。

回答:


12
  1. 必ずしも。小さなクラスター、不均衡な設計、およびクラスター内の交絡因子の不完全な調整により、交換可能な相関は、独立GEEよりも非効率的で偏りがあります。これらの仮定もかなり強い可能性があります。ただし、これらの仮定が満たされると、交換可能オブジェクトの推論がより効率的になります。AR-1相関構造が理にかなっているインスタンスを発見したことはありません。時間のバランスが取れた測定値を持つことは珍しいからです(私は人間の被験者データを扱っています)。

  2. さて、相関関係を調べることは適切であり、データ分析で行う必要があります。ただし、意思決定の指針となるべきではありません。バリオグラムとロレログラムを使用して、縦断的およびパネル調査の相関関係を視覚化できます。クラスター内相関は、クラスター内の相関の程度の適切な測定です。

  3. GEEの相関構造は、混合モデルとは異なり、限界パラメーターの推定値(GEEで推定している)には影響しません。ただし、標準誤差の推定値には影響します。これは、リンク機能とは無関係です。GEEのリンク機能は、限界モデル用です。

  4. サイトは、口の中の歯や学区内の生徒など、測定されていない変動の原因になります。これらのデータには、虫歯への遺伝的傾向やコミュニティ教育資金など、クラスターレベルの交絡因子の可能性があります。そのため、交換可能な相関構造を使用することにより、標準誤差の推定値が向上します。

  5. GEEでの限界効果の計算は、ネストされていない場合は複雑ですが、実行できます。ネストは簡単で、あなたが言った通りにできます。


(#5について)それでは、ネストされたクラスタリングの場合、トップレベルのクラスター変数を選択するだけです。
セオドアライトラス14年

いいえ、階層的な2レベルの交換可能な相関構造を作成し、3ステップEMアルゴリズムを使用して、相関のための2つの別個の相関パラメーターを一貫して推定できます。そうすれば、コミュニティ内の子供が相関していることがわかりますが、家庭内の子供ほど相関していません。
AdamO 14年

申し訳ありませんが、これは理解できません。できればRまたはStataのコードを教えてください。私はそれが役立つはずだと思います。
セオドアライトラス14年

1
@TheodoreLytras申し訳ありませんが、私は間違っていました。以前のアサーションは正しいです。私がリンクしたまさにその論文から、「さらに、複数のクラスターが完全にネストされている場合、トップレベルのクラスターでのGEEクラスタリングは、サンドイッチ分散推定器によるマルチレベル相関構造を説明します」。
AdamO 14年

1
別の意味かもしれませんが、「混合モデルとは異なり、GEEの相関構造は限界パラメーターの推定値に影響を与えません」と述べるとき、これは真実ではないと思います。少なくとも、異なる作業相関行列を選択することで係数が変更されないことを意味する場合、これは起こりません。相関行列は重み行列で機能し、係数だけでなく共分散行列にも影響します。
ニック

6

(1)離れた場所での測定値は互いに近い場所での測定値よりも相関性が低いと予想されるため、何らかの自己回帰構造が必要になる可能性があります。Exchangeableは、それらがすべて同等に相関していると仮定します。しかし、他のすべてと同様に、それは依存します。

(2)この種の決定は、データがどのように見えるかではなく、データがどのように生成されたかについて考えることに帰着すると思います。

(4)それは依存します。たとえば、学校に入れ子にされた子供は、ほとんどの場合、独立したものとして扱われるべきではありません。ソーシャルパターニングなどのために、特定の学校の子供について何かを知っていれば、おそらく学校の他の子供について少なくとも少し知っているでしょう。私はかつてGEEを使用して、さまざまな社会的および経済的指標と、参加者が近所で入れ子になっている出生コホートの肥満有病率との関係を調べました。交換可能な構造を使用しました。ここ論文を見つけ、epiジャーナルからの2を含むいくつかの参考文献を確認できます。

(5)どうやらそうです(たとえば、この例を参照)が、これを行うことのRの仕様を支援することはできません。

Zeger SL、Liang KY、Albert PS。縦断データのモデル:一般化された推定方程式アプローチ。生体認証。1988; 44:1049–60。

Hubbard AE、Ahern J、Fleischer N、van der Laan M、Lippman S、Bruckner T、Satariano W. 疫学。2009

ハンリーJA、ネガッサA、エドワーズMDB、フォレスターJE。一般化された推定式を使用した相関データの統計分析:方向。アムJエピデミオール。2003; 157:364。


これは確かに役立ちますが、クラスタリング自体が観測間の類似度を意味するため、なぜ誰もが独立構造を使用するのか疑問に思います。しかし、学校の場合、類似性は他の学校との関係にあり、各学校の生徒は独立しているという印象を受けます。だから私はまだそれについてあまり明確ではありません。
セオドアLytras 14年

はい、サンプルと後続のモデリングを単一の学校に限定した場合、心配はありません。この場合、エラーがiidであると仮定する方が正当です。しかし、異なる学校の子供を同じサンプル/モデルに結合し始めると、モデルの学校を説明しない限り、つまり、学校を条件とするエラーがiidであると想定される場合を除き、その仮定は弱くなります。
DLダーリー14年

また、サンプルサイズ、反復測定の数とタイミング、クラスター数などに関する詳細を提供できれば、人々はあなたにとってより役立つかもしれないことに注意する価値があります。
DL Dahly 14年

2
@DLDahly(1)のあなたの主張は、生物統計学的パネル分析で私がよく見かけるものではありません。AR-N相関構造の背後にある仮定の1つは、それらの間の十分な時間を考えると、同じ個体での2つの測定は、異なる個体間の2つの測定と同様に無相関になるということです。ただし、基になる主要なクラスター間交絡因子は、時変共変量(遺伝子マーカーなど)ではないことが多く、そうでないと仮定することは(不可能ではないにしても)非常に困難です。ただし、ロレログラムは開始するのに非常に適した場所です。
AdamO 14年

1

(0)一般的なコメント:crossvalidatedで表示されるモデルのほとんどは非常に複雑です。可能な限り簡素化します。多くの場合、結果を比較するにはGEEと混合モデルでモデリングする価値があります。
(1)はい。交換可能を選択します。私の明確な答えは、GEEの最も広く宣伝されている利点、つまり、仮定に対する推定の回復力に基づいています。
あなたの分野の研究を見ると、exchがデフォルトのオプションであることがわかります。それが最高であることを意味するものではありませんが、最初に考慮する必要があります。exchのアドバイスは、データの詳細な知識がなくても最良のアドバイスです。
(2)はい、「QIC」などのデータ駆動型のアプローチがあります。これはStataの例ですが、合理的なオプションとして広く受け入れられていますが、実際にはほとんど使用されません。http://www.stata-journal.com/sjpdf.html?articlenum=st0126)(3
ポイント推定値は(indep相関構造を使用している場合を除き)まったく同じではありませんが、通常はかなり近い値です。simple / gee / mixed effects modelの推定値を比較して、この感覚をつかむ多くの記事を見つけることができます(https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf)ほとんどの教科書には表またはこのために2つ。独立した相関構造の場合、基本的に堅牢なSEでポアソンモデルを実行しています。したがって、推定値はまったく同じになります。通常、SEは大きくなります。ただし、堅牢なSEの方が小さい場合があります(つまり、Googleを使用すると、痛みを感じずに説明できます)
(4)上記の(1)および(2)を参照してください。
(5)いいえ。より適切に言えば、十分な努力をすれば何でもできますが、努力する価値はほとんどありません。


0

構造がわからず、結果が混乱する可能性があるため、ギーと間違ったアプローチを使用して自分がやっていることを行っています。Jamie Robinsonを参照してください。長く使用する必要があります。TMLE(マーク・ファン・デル・ラーン)またはおそらくiptwウェイトのジー。相関を考慮しないと、分散が過小評価されません。繰り返し測定値がすべて100%相関している場合、事実上、観測数が実質的に少なくなり(n人の被験者に対して本質的にnのみ)、nが小さいほど分散が大きくなります。


非生存タイプの結果がある場合は、傾向スコアが正しいことを前提として、偏りのない推定で提案されているように、独立したcorr構造とiptw重みを持つgeeアプローチを使用できます。TMLEは、生存の有無にかかわらず、傾向スコアと逐次回帰を予測し、依然として効率的な推論を得ることができるため、すべての場合において最も優れています。あなたのアプローチは確実に偏っており、間違った推論を与え、サンプルサイズが大きいほど、効果がなければ、間違った重要な効果を特定する可能性があります!!
ジョナサンレヴィ

これはより詳細に使用できます。ジャニー・ロビンソンとは?ファン・デル・ランのどの論文ですか?
mdewey

@mdeweyごめんなさい、タイプミスはジェイミー・ロビンスを意味した。Robins、hernan、Battette 2000の周辺構造モデルと因果推論を試してみてください。効果修飾子を使用してmsmを実行する方法を含む、非生存結果の優れた方法です。laanについては、学習を対象とした本を参照してください。私が言ったように、laanはおそらく最高ですが、理解するにはもっと時間がかかります。RパッケージLtmleはこの方法論を実行しますが、学習するには時間がかかります。
ジョナサンレヴィ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.