人のサンプルで2回ポイントで繰り返し測定しています。時間1には1万8千人、時間2には1万3千人がいます(5000人がフォローアップで失われました)。
時間1に測定された一連の予測子Xについて、時間2に測定された結果Y(および時間1に結果を測定できない)を後退させたい。すべての変数に欠落データがある。そのほとんどは比較的ランダムに表示されます。または、欠落は観測されたデータでよく説明されているようです。ただし、結果Yの欠落の大部分は、フォローアップの損失が原因です。私は複数の代入(R :: mice)を使用し、完全なデータセットを使用してXの値を代入しますが、Yの代入に関する2つの矛盾するアドバイスを受け取りました。
1)18kの完全なサンプルでXとV(V =有用な補助変数)からYを代入します。
2)フォローアップで失われた個人にYを負わせないでください(したがって、後続の回帰モデリングからそれらを削除します)。
前者は情報が情報であるため理にかなっています。しかし、後者はより直感的な意味でも理にかなっています-Y〜X + Vに基づいて5000人の結果を推測し、方向を変えてY〜Xを推定するのは間違っているようです。
どちらが(もっと)正しいですか?
この前の質問は役に立ちますが、フォローアップの損失による欠落に直接対処していません(おそらく答えは同じですが、わかりません)。