これらの2つを複数回説明しました。彼らは私の脳を調理し続けます。Missing Not at Randomは理にかなっており、Missing Completely at Randomは理にかなっています...それほど多くないのはMissing at Randomです。
MARであるがMCARではないデータの原因は何ですか?
これらの2つを複数回説明しました。彼らは私の脳を調理し続けます。Missing Not at Randomは理にかなっており、Missing Completely at Randomは理にかなっています...それほど多くないのはMissing at Randomです。
MARであるがMCARではないデータの原因は何ですか?
回答:
ランダムな欠落(MAR)は、完全な情報を持っている変数によって欠落が説明できることを意味します。これはテスト可能な仮定ではありませんが、妥当な場合とそうでない場合があります。
たとえば、政治的世論調査を実施します。多くの人が答えることを拒否します。ユーザーが回答を拒否する理由が完全に人口統計に基づいていると想定し、各ユーザーにこれらの人口統計がある場合、データはMARです。人々が答えを拒否する理由のいくつかは人口統計に基づいていることが知られています(例えば、低所得者と高所得者の両方が中間者よりも回答する可能性は低いです)が、それを本当に知る方法はありません完全な説明です。
したがって、質問は「十分に満たされていますか?」になります。多くの場合、複数の代入のようなメソッドは、データがランダムではなく非常に欠落していない限り、他のメソッドよりもうまく機能します。
Amelia
、mi
、とmice
。類似点と相違点は魅力的です。(Amelia
's over impute
は非常に興味深い。)
これが正しいかどうかはわかりませんが、それを理解しようとしたのは、対称性のない2x2の可能性のマトリックスがあるかのようです。何かのようなもの:
Pattern / Data Explains Pattern
Yes No
Yes MAR MNAR
No -- MCAR
つまり、変数の欠落にパターンがあり、それを説明できないデータがある場合、MNARがありますが、持っているデータ(つまり、データセットの他の変数)が説明できる場合、MARがあります。欠落のパターンがない場合、それはMCARです。
私はここから少し離れているかもしれません。また、これにより、「パターン」と「データの説明」の定義が開かれたままになります。「データが説明する」とは、データセットの他の変数が説明することを意味すると思いますが、あなたの手順もそれを説明できると信じています(たとえば、別のスレッドの良い例は、同じものを測定する3つの測定変数と手順は、最初の2つの測定値が一致しない場合に3回目の測定を行う場合です)。
これは直観、CVにとって十分に正確ですか?
私も違いを把握するのに苦労していたので、いくつかの例が役立つかもしれません。
MCAR:ランダムに完全に欠落している、これは素晴らしいです。これは、非応答が完全にランダムであることを意味します。したがって、あなたの調査には偏りがありません。
MAR:ランダムに行方不明、さらに悪い状況。IQを求めており、男性よりも女性の参加者がはるかに多いと想像してください。幸いなことに、IQは性別とは関係がないため、性別を制御(重み付けを適用)してバイアスを減らすことができます。
MNAR:ランダムに欠落していないに、悪い。収入のレベルについて調査することを検討してください。繰り返しますが、男性よりも女性の方が多く参加しています。この場合、収入のレベルは性別に関連しているため、これは問題です。したがって、結果には偏りが生じます。簡単に取り除くことはできません。
ご覧のとおり、ターゲット変数(収入などのY)、補助変数(年齢などのX)、および応答動作(R、応答グループ)の間の「三角形」の関係です。XがRのみに関連している場合、good-ish(MAR)。XとR、およびXとYの間に関係がある場合、その不良(MNAR)。