調査回答の系統的エラーを説明するための補完


9

私は大規模な調査を行っており、学生に、特に母親の教育レベルを尋ねました。一部はそれをスキップし、一部は間違って答えた。最初の回答者の母親のサブサンプルが後でインタビューされ、同じ質問をしたので、私はこれを知っています。(私は母親の反応に関連するいくつかの、より少ない量のエラーがあると確信しています。)

私の課題は、この2番目の、より信頼性の高いデータソースを最大限に活用する方法を決定することです。少なくとも、これを使用して、完全なケースにのみ頼ることができた場合よりも、インテリジェントに欠落データを補完できます。しかし、データを照合できる子供たちの3/4(「母は小学校を卒業したことがない」と答えた)が母親の答えと矛盾している場合は、代入を使用して複数のデータセットを作成し、そこで不確実性を把握する必要があります。[追加:要点を言うために3/4と言いましたが、データを確認したので、40%近くが矛盾していることも伝えます]

私は個人的には母親の教育を混合モデルの予測子として使用しますが、他の状況について何か言いたいことがあれば、それらについても学びたいです。

筆記体や詳細でアドバイスを受けたいです。ありがとうございました!

更新:質問は未解決のままにしておきますが、WillとConjugate_Priorの回答に感謝しますが、より具体的で技術的なフィードバックを期待しています。

以下の散布図は、2つの変数が存在する10,000のケースで2つの変数がどのように関連しているかを示しています。それらは100以上の学校に入れ子になっています。それらは0.78で相関します。学生の回答-平均:5.12 sd = 2.05、ママの回答、平均= 5.02、sd = 1.92学生の回答が約15%のケースで欠落しています。

ここに画像の説明を入力してください


好奇心から、「私の母は小学校を卒業したことがない」という教育の質問に対する最初の回答オプションでしたか?もしそうなら、私はそれらの受験者のためのあなたの残りのテスト結果の正確さについて心配するでしょう。
ミシェル

「彼女はどのくらい学校に行きましたか?」-1)8年生以下
Michael Bishop

おそらく、各質問に対する最初の回答オプションを選択した受験者のサブセットがあるでしょう。確認できますか?
ミシェル

そのプロットは非常に洞察力があります。それはかなり対称的に見えますが、実際には多くの子供たちが最初の答えをチェックしただけの場合は、あなたが期待するものではありません。その場合は、ケースが一番下の行に沿って集まる傾向があります。もちろん、「見た目」の対称性が実際にそれを保証するわけではありませんが、それは良いスタートです。母と子の反応の間に見られる強い相関関係もこれと一致しています。
ウィル

1
ああ。そうですか。そして、私はまた、既存のデータを転嫁するために消極的(少し以上)になるだろうし、それが引数のこの種にもかかわらず、すべてで行われていなかった推薦:gking.harvard.edu/gking/files/measure.pdf
conjugateprior

回答:


2

最初に注意すべきことは、変数は「学生が母親の教育について言ったこと」と「学生の母親が学生の母親の教育について言ったこと」です。それらをそれぞれSおよびMと呼び、観察されていない母親の教育の真のレベルをTとラベル付けします。

SとMの両方に欠損値があり、MとSを代入モデルに入れても、その後の分析で1つだけを使用しても問題はありません(以下の観察を法として)。逆の方法は常にお勧めできません。

これは、他の3つの質問とは異なります。

  1. 欠損値は、学生が母親について知らない、または母親についてそれほど言いたくないことを意味しますか?
  2. SとMを使用してTについて学ぶには?
  3. 複数の代入が機能するのを可能にする適切な欠落がありますか?

無知と欠落

あなたはTに興味があるかもしれませんが、必ずしもそうである必要はありません。教育の達成(Sを介して、そしておそらくMを介して)の認識または学生の知識の欠如は、T自体よりも因果的に興味深いかもしれません。インピュテーションは、最初のルートにとっては賢明なルートかもしれませんが、2番目のルートにとってはそうでないかもしれません。あなたが決める必要があります。

Tについて学ぶ

あなたが実際にTに興味を持っているとしましょう。ゴールドスタンダード測定がない場合(Mを疑う場合があるため)、SとMを勝手に組み合わせてTについて学ぶ方法を知ることは困難です。 Mが利用可能な場合はそれを正しいものとして扱いたい場合は、Sを使用して、学生からの他の情報を含む分類モデルでMを予測し、最終分析でSではなくMを使用できます。ここでの懸念は、トレーニングしたケースの選択バイアスに関するものであり、これが3番目の問題につながります。

行方不明

複数の代入が機能するかどうかは、データがランダムに完全に欠落しているか(MCAR)、ランダムに欠落しているか(MAR)によって異なります。Sはランダムに欠落していますか(MAR)?おそらくそうではありません。学生が母親の教育の欠如について答えて質問をスキップするのを恥ずかしく思うかもしれないからです。次に、値だけで欠落するかどうかが決まり、多重代入はここでは役立ちません。一方、何かを持つ低教育covaries場合されて尋ね、一部が収入の一部指標を、たとえば調査に答え、その後、MARは、より合理的かつ多重代入かもしれ上のグリップを得るために何かを持っています。Mがランダムに欠落していますか?同じ考慮事項が適用されます。

最後に、Tに興味があり、分類アプローチを取っている場合でも、そのモデルに適合するように代入したいと思うでしょう。


1

「矛盾率」が母親全体がポーリングされたサブサンプルの場合と同じようにサンプル全体で同じであると想定する場合、サブサンプルはランダムに描画されている必要があります。あなたの説明では言わないので、私はこの問題を提起します。サブサンプルのこの情報をどのように使用して、学生のサンプル全体について結論を出すことができるかについて、重要な影響があると思います。

この矛盾の問題には3つの側面があるように私には思えます。

1は矛盾の割合です。学生の3/4が間違って推測したのは、実際にそうですか?

2は間違いの程度です。母親が実際に小学校を卒業したのに一度も学校を卒業したことはないが、そこで止まったことと、博士号を取得したときに小学校を卒業したことがないということです。

3は、クロスチェックできるサンプルの割合です。20のサブサンプルでこれらの結論を導き出す場合、推定値はかなり不安定で、おそらくあまり価値がありません。

あなたが何をするかは、これらの質問と私が最初に提起した質問に対するあなたの答えに依存するようです。たとえば、1が非常に高く、3が非常に高い場合、サブサンプルを使用してそれで終了する場合があります。1は高いが2は低い場合、問題はそれほど悪くはないように思われ、繰り返しになりますが、気にする必要はありません。

エラーがランダムであるか、系統的であるかを知ることもおそらく価値があります。学生が母親の教育を体系的に過小評価する傾向がある場合、それは彼らが時々完全に間違っているだけの場合よりも問題があります。

私は2、3の論文にいくつかの代入を行ったので、結果として常に自分自身にトラブルを引き起こしているようです。レビュー担当者は、少なくとも私の領域では、多くの場合、メソッドを適切に処理できないため、その使用法に疑いがあります。出版の観点からは、問題を認めて先に進む方が良い場合もあるように思います。しかし、この場合、実際には「欠損データを補完する」のではなく、変数に対して何らかの予測誤差分散を導入しています。それは非常に興味深い質問であり、すべての懸念を脇に置いて、私がそれが最善の行動方針であると決めた場合、どうすればこれに対処できるかさえわかりません


1
おかげで、私は私の元の投稿でいくつかのことを明確にしました。サブサンプルはランダムです。要点を述べるために、帽子から3/4ステータスを引き出しました。本当の統計は少ないです。約10,000件のクロスチェックができます。エラーは完全にランダムではないと確信しています。
マイケルビショップ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.