縦断的研究では、追跡調査で失った個人に対して、時間2に測定された結果Yを推定する必要がありますか?


10

人のサンプルで2回ポイントで繰り返し測定しています。時間1には1万8千人、時間2には1万3千人がいます(5000人がフォローアップで失われました)。

時間1に測定された一連の予測子Xについて、時間2に測定された結果Y(および時間1に結果を測定できない)を後退させたい。すべての変数に欠落データがある。そのほとんどは比較的ランダムに表示されます。または、欠落は観測されたデータでよく説明されているようです。ただし、結果Yの欠落の大部分は、フォローアップの損失が原因です。私は複数の代入(R :: mice)を使用し、完全なデータセットを使用してXの値を代入しますが、Yの代入に関する2つの矛盾するアドバイスを受け取りました。

1)18kの完全なサンプルでXとV(V =有用な補助変数)からYを代入します。

2)フォローアップで失われた個人にYを負わせないでください(したがって、後続の回帰モデリングからそれらを削除します)。

前者は情報が情報であるため理にかなっています。しかし、後者はより直感的な意味でも理にかなっています-Y〜X + Vに基づいて5000人の結果を推測し、方向を変えてY〜Xを推定するのは間違っているようです。

どちらが(もっと)正しいですか?

この前の質問は役に立ちますが、フォローアップの損失による欠落に直接対処していません(おそらく答えは同じですが、わかりません)。

結果変数の多重代入


これは私には矛盾しているように見えます-説明できますか?:「ほとんどが比較的ランダムに見えるか、欠落が観測されたデータによってよく説明されているようです。」
rolando2

1
複数の代入および他のほとんどの代入手順では、データがランダムに欠落している(MAR)必要があります。あなたの研究における消耗のメカニズムを理解する必要があるでしょう。しかし、あなたの追跡調査では、あなたの欠損値はおそらくMARでもMCARでもないと思います。
StatsStudent 2015

回答:


2

これはインストルメンテーションのケースだと思います。欠落しているYではなく欠落しているXが必要です。

Y~X

しかし、Xは頻繁に欠落しているか、誤って測定されています。

X~Z and Z does not impact Y- except through X.

次に、実行することができます:

 X~Z
 Y~Predicted(X)

また、標準誤差を調整する必要があります。

サンプルの消耗が多い場合は、ヘックマン2ステップの手順を確認することもできます。 http://en.wikipedia.org/wiki/Heckman_correction


2

私はどちらも最も適切ではないと主張します。

XY

データから欠落しているすべてのデータを削除すると、パラメーターにバイアスがかかり(データがMCARでない場合は、上記を参照)、見積もりの​​精度が大幅に低下します。これは「完全なケース」の分析であり、お勧めできません。

Y

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.