欠落している観測を削除しても大丈夫ですか?


8

移民申請書とビザの受け入れ(ビザの付与)を調べるデータセットを持っています。料金はビザ申請の「受理」と「拒否」に対して計算されます。

ただし、データセットには、クローズされたケースの値も含まれています。通常、これは移民が予定まで表示されなくなったか、他の場所に移住したか、死亡したかのいずれかです。率が計算されるときにこれらの数値は使用されないため、率が欠落していると表示されることがよくあります(ケースが受け入れられず、拒否もされなかったため)。

そうは言っても、その年の唯一のケースが「その他の方法でクローズ」された場合、これらの観察を破棄しても大丈夫でしょうか?私が抱えている問題の一部は、その年の唯一の決定がクローズされたため、データセット内のランダムな年が削除されることです。

さもなければクローズされたケースは非常に恣意的であり、私が述べたように、おそらく移民がどこか別の場所に移住し、おそらく最初の国を一時的な通過場所として使用したケースです。データは移民がなぜ去ったのか、なぜ彼らが閉じられたのかなどを具体的に述べていません。私はこれらの欠損値をどのように処理するのか本当にわかりません。レート計算のため、ここでは標準の補完法が機能するとは思わない(ただし、間違っている可能性がある)。


1
あなたはそれらを落とすだけではありません。複数の代入を適用できます。ドナルド・ルービンとロッド・リトルが共同執筆した記事と本をご覧ください。
Michael R. Chernick

1
複数の代入は、データがランダムに欠落していると想定していますか?これらのデータはランダムに欠落していますか?MIは常に私を少し投げ捨てます、そしてこれは1つの理由です。
EJ16 2017年

2
あなたは良い点を上げます。彼らは、1)ランダムに完全に欠落している、2)ランダムに欠落している、3)ランダムに欠落していないとして、欠落データを分類します。これらのカテゴリは、それらの本で説明されています。あなたが彼らの仕事を読み、あなたのデータを理解すれば、あなたはその方法を適切に適用できるはずです。あなたには3つの状況があります:移民が現れなくなった、他の場所に行った、または亡くなりました。これはランダムではないようですが、何が起こったかに基づいて、受け入れの確率を確認できます。
Michael R.Chernick

データがMCAR、MAR、MNARのいずれであるかが不明な場合は、欠損データプロットを検討することをお勧めします。以下は、ggplot2とR統計パッケージを使用してこのようなプロットを作成する例です。
ウェス

1
データに「ケースドロップ」という3番目のカテゴリを含めることはできませんか?多分それから異なる分析はそれを異なって扱いますか?ただの落下は奇妙に思えます。
kjetil b halvorsen 2017年

回答:


6

重要な違いは、MCAR、MAR、およびNMARの違いではなく、実際の欠損値と機械的欠損値の違いです。実際の欠損値は存在する値ですが、何らかの理由で記録されませんでした。機械的欠損値は存在しませんが、データセットの長方形の構造により、データセットに男性が含まれている場合の妊娠ステータスなどの値を強制的に指定します。インピュテーション手法は、実際の欠損値用に設計されています。あなたの例は、機械的な欠損値の場合です。決定がなされていないため、その価値は存在しません。移民のかなりの部分が先に進む場合、それは移行プロセスの重要な機能であり、それらの値を帰属させることはその機能を隠します。


男性の妊娠の場合とは異なり、しかし、人々が死んだ、先に進んだ、または現れなくなった場合には、受け入れ/拒否の決定があった可能性があります。生存分析では、打ち切りが有益でない場合、これらは打ち切り事例としてインテリジェントに処理できます。このケースの分析に検閲済みのステータスを組み込む方法はあるのでしょうか。
EdM 2017年

マールテン、ありがとうございました。それは理にかなっている。また、おそらくそれは一種の検閲(例えば、移民の死)だと思っていました。しかし、「これらの値を代入することでその機能が隠される」とは理解できません。つまり、複数の代入を行うべきではないということですか。もしそうなら、他のオプションは何ですか?私はまだ頭を掻いています。
EJ16

おそらく、それらは受け入れられた/拒否されたものとして記録されました。しかし、何の決定もまったく行われなかった年があり、行われた決定は「それ以外の場合は閉じられた」だけでした。だから、それが今私が行き詰まっている部分です。
EJ16 2017年

マールテン、気にしないで。私は答えを再読しましたが、MIはこれでは不十分であることを理解しています。現在、ケースの約半分が別の方法でクローズされているため、行方不明になっていることが示されています。標準的な手順ではレート計算にそれらを含めないので、私の質問はこれらのケースをどうするかです。
EJ16

+1良い答え。注目に値する1つの点は、少なくとも米国の文献では、「機械的」MVが「構造的ゼロ」またはnull値としてより一般的に呼ばれていることです。
マイクハンター

1

少なくとも2つの異なる欠落プロセスが混在していることは明らかです。

  1. 手順とは無関係の原因/放棄などで死亡した人。手順の起こりそうな結果以外の理由による。ここで、MARの下での補完が理にかなっています(ケースを明確に識別できる場合)。
  2. いくつかのルールを満たしていない、および/または成功する可能性が低い、または面倒が多すぎると考えて中止/脱退/脱退した人。ここで、それは彼らが継続していたかどうか、あなたが彼らの可能性を評価したデータからあなたができるかどうかに依存します。MARが想定できる場合は問題ありませんが、そうでない場合はMNARの状況が困難になります。

MNARをどうするかは難しい。そのようなケースで成功しなかったと仮定すると、少し極端になる可能性があります(結局、成功しなかったため、非常に適切です)。または、MARの下に代入して、0%に到達し、その値の範囲を検討するまで、これらのケースの成功率を下げます。


確かに。最初は、データはMNARだと思っていました。しかし、マールテンは正しいと思います。それだけで、構造的零点をどうするかについて少し混乱しました。
EJ16 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.