欠落しているデータを置き換えるための平均置換の方法は古くなっていますか？

8

欠落しているデータを置き換えるための平均置換の方法は古くなっていますか？使用する必要があるより洗練されたモデルはありますか？もしそうなら、それらは何ですか？

missing-data

このサイトはあなたの質問に答えを与えるかもしれません。リンクWhat is MIは、さまざまなリソースのリストを提供します。

— mpiktas '23年

14

蚊を大砲で撃つ必要がないという事実を除けば（つまり、100万個のデータポイントに欠損値が1つある場合は、それをドロップするだけ）、平均を使用するのは最適とは言えず、結果にバイアスがかかる可能性があります。少なくとも不確実性の結果を修正する必要があります。

他にもいくつかのオプションがありますが、最も簡単に説明できるのは多重代入です。概念は単純です。データ自体のモデルに基づいて（たとえば、完全なケースから取得されますが、MICEのような他のオプションも利用できます）、関連する分布から値を描画してデータセットを「完成」します。次に、この完成したデータセットでは、不足しているデータがなくなり、関心のある分析を実行できます。

これを1回だけ行った場合（実際には、欠損値を平均で置き換えることはこれの非常に歪んだ形式です）、これは単一代入と呼ばれ、平均の置き換えよりもパフォーマンスが優れている理由はありません。

ただし、コツはこれを繰り返し（したがって多重代入）することであり、毎回完了した（=計算された）データセットごとに分析を行います。結果は通常、完成した各データセットのパラメータ推定値または同様のセットです。比較的緩い条件下では、これらのすべての帰属データセットに対してパラメーター推定値を平均しても問題ありません。

利点は、欠落したデータによって引き起こされる不確実性に対して標準誤差を調整する簡単な式も存在することです。

詳細を知りたい場合は、リトルとルービンの「欠落データを含む統計分析」を読んでください。これには、他の方法（EMなど）と、それらがどのように/なぜ/いつ機能するかについての詳細な説明も含まれます。

— ニック・サベ
ソース

1

+1追加情報（予測子vs予測子）を組み込むため、単一代入は平均置換よりもわずかに優れていると想定します。しかし、私はMIが進むべき道であることに完全に同意します。

0

$0$

p

$p$

— Bernd Weiss

11

欠落しているデータの性質についてはあまり詳しく説明しませんでした。MCAR（ランダムに完全に欠落）を確認しましたか？MCARを想定できない場合、平均置換は推定器に偏りをもたらす可能性があります。

非数学的な出発点として、次の2つの参考文献をお勧めします。

Graham、Hohn W.（2009）：ミッシングデータ分析：現実世界で機能させる。
アリソン、ポール（2002）：データがありません。（11ページの「代入」を参照）

— ベルントヴァイス
ソース

@ Bernd the Grahamのリファレンスは非常に優れており、複数の代入のコツをつかむのに非常に役立ちました。

— richiemorrisroe

2

欠損値がランダムに分布している場合、またはサンプルサイズが小さい場合は、平均値を使用した方がよい場合があります。最初にデータを2つの部分に分割します。1つは欠損値あり、もう1つは欠落し、2つのサンプル間のいくつかの主要な変数の平均値の違いをテストします。差がない場合は、平均を代入するか、観測値を完全に削除するだけのサポートがあります。

-ラルフ冬

— ラルフ・ウィンターズ
ソース

1

しかし、平均を使用すると、その時点での値を予測していることになります。それは起こっていることではなく、ランダムな値を回復する試みです。分散の推定値もあるので、両方を使用する必要があるようです（つまり、分布からのランダムな描画）。

— ジョン

さらに、平均置換により、推定値の分散が減少し、残りの分析対象のすべての標準誤差と信頼区間がスローされます。

— richiemorrisroe

はい。私は、MIに盲目的に飛び込む前に、欠落データと非欠落データの母集団を調べることを提案しただけです。MIは、最小のゲインを犠牲にして多くの計算能力を消費する可能性があります。

— ラルフウィンターズ

0

データの欠落は、どこでも大きな問題の1つです。最初に次の質問にお答えください。1）データの何％が欠落していますか？-データの10％を超える場合、平均値でデータを代入するリスクはありません。そのような欠落を平均で補完することは、LRボックスに外観を伝えることと同じです。この変数は、ほとんどの場所を意味するため（結論を描画します）、LRボックスで提案に結論を描画したくないのですか？今、あまり必要ない場合にできることは少なくとも、この変数の使用可能な値をさまざまな予測子の値に関連付けたり、可能な場合はビジネスセンスを使用したりすることです。例：marriage_indが見つからない場合、結婚している人の年齢の中央値を見る方法かもしれません（29歳になると言わせてください）。私は一般的に（インドの）人々が30歳と29歳で結婚することを示唆していると思います。PROC MIは内部的にも処理を行いますが、はるかに洗練された方法で行います。2mycents..missingにリンクされている少なくとも4〜5の変数を参照し、相関関係を形成しようとします。これは、平均よりも優れている場合があります。

— アユッシュ・ビヤニ
ソース