私は大規模な調査を行っており、学生に、特に母親の教育レベルを尋ねました。一部はそれをスキップし、一部は間違って答えた。最初の回答者の母親のサブサンプルが後でインタビューされ、同じ質問をしたので、私はこれを知っています。(私は母親の反応に関連するいくつかの、より少ない量のエラーがあると確信しています。)
私の課題は、この2番目の、より信頼性の高いデータソースを最大限に活用する方法を決定することです。少なくとも、これを使用して、完全なケースにのみ頼ることができた場合よりも、インテリジェントに欠落データを補完できます。しかし、データを照合できる子供たちの3/4(「母は小学校を卒業したことがない」と答えた)が母親の答えと矛盾している場合は、代入を使用して複数のデータセットを作成し、そこで不確実性を把握する必要があります。[追加:要点を言うために3/4と言いましたが、データを確認したので、40%近くが矛盾していることも伝えます]
私は個人的には母親の教育を混合モデルの予測子として使用しますが、他の状況について何か言いたいことがあれば、それらについても学びたいです。
筆記体や詳細でアドバイスを受けたいです。ありがとうございました!
更新:質問は未解決のままにしておきますが、WillとConjugate_Priorの回答に感謝しますが、より具体的で技術的なフィードバックを期待しています。
以下の散布図は、2つの変数が存在する10,000のケースで2つの変数がどのように関連しているかを示しています。それらは100以上の学校に入れ子になっています。それらは0.78で相関します。学生の回答-平均:5.12 sd = 2.05、ママの回答、平均= 5.02、sd = 1.92学生の回答が約15%のケースで欠落しています。