欠落率と多重代入


8

複数の補完(MI)を使用する場合に最低限許容される制限はありますか?

たとえば、変数の欠損値がケースの20%であり、他の変数の欠損値はあるがそれほど高いレベルではない場合、MIを使用できますか?


20%は非常に高いとは思わないので、厳密な根拠はありませんが、2番目の質問に対する答えは「はい」です。私の直感は、唯一の制限はアルゴリズムがまったく機能しないことです。ルービンの本の表に、非常に高い欠落率の結果が表示されているのをぼくは覚えています。(有効ではなく)非常に高い欠落率でMIを実行する価値があるかどうかは、別の問題です。
mark999 2012年

1
多くのことは、あなたの行方不明が完全に無作為に行方不明であると想定できる量に依存します。欠落の割合が高く、ランダムに欠落していない場合、補完の推定に偏りが生じる可能性があります。データ内に存在するケース(定義により)で実行する必要があるため、欠落しているケースに体系的なバイアスがある場合、現在のケースは精度の観点からはあまり有益ではない可能性があります。
ミシェル

@ mark999-答えてくれてありがとう。1つの変数の欠落率が高いと見なせるのはいつですか?あなたの最後の質問について、何か答えはありますか?
Nick

@ミシェル-ありがとう。幸いなことに、MARはかなり妥当である(そしてMCARでさえ妥当であると考えることができる)
Nick

@Nick:何が非常に高いレートと見なされるべきかわからないし、それに特定の数値を付ける必要はないと思います。最後の質問には答えがありません。
mark999 2012年

回答:


3

コメントから、あなたはMARまたはMCARの状況にいると確信しています。その場合、複数の代入は少なくとも合理的です。では、どれほどの欠落が扱いやすいのでしょうか?次のように考えてください。

基本的に、複数の代入は、すべてのモデルパラメーター推定値を、代入モデルで欠損データを予測できる精度の関数として不確実にします。これは、とりわけ、代入を必要とする欠損の量と、使用する補完の数。

「多すぎる」欠落はどのくらいかということは、どの程度の追加の分散/不確実性に耐えられるかによって異なります。あなたにとって有用な量は相対的な効率かもしれません(RE)MI分析の。これは、「欠落している情報の割合」(単純な欠落率ではない)に依存し、通常はλ、および通常は呼び出される代入の数 メートル、 なので RE1/1+λ/メートル

ここで欠落している情報などの定義を生成するのではなく、物事を非常に明確にするMI FAQを読むだけかもしれません。そこから、元のソースに取り組む必要があるかどうかがわかります:Rubinなど。

実際には、補完分析を試してみて、それがどのように機能するかを確認する必要があります。


FAQリンクが壊れています。あなたは現在のものを持っている可能性がありますか?(便利そうです)
drstevok 2017

追加しました。それがどれほど公式なのかはわかりません。
共役前の

1

あなたは見つけるかもしれません

ルービン、ドナルドB.、ナサニエルシェンカー。1986.「無視できる応答のない単純なランダムサンプルからの間隔推定のための多重代入。」Journal of the American Statistical Association 81(394):366–374。

役立つ。


1
この返信が自己完結型であるように、Rubinの推奨事項を簡単に説明してください。
2012年

私はそれを取得する必要があります。私はまた、ペンシルベニア州立大学のジョー・シェイファーデータが「REALLY nonignorable」でない限り、MIが良好であることを(はるか最近は)言うのを聞いてきた
ピーターFlom

@ピーター・フロム:シェファーの発言は興味深いです-あなたは何か詳細を知っていますか?
mark999 2012年

1
@ピーター・フロム:ありがとう(私はあなたの「最近」を「最近」と誤って解釈した)。
mark999 2012年

1
@ピーター・フロム。自分のタイプミスは怖いです。欠落している「non」を前に置くと、私のコメントの残りの部分は理にかなっています!
conjugateprior
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.