回答:
蚊を大砲で撃つ必要がないという事実を除けば(つまり、100万個のデータポイントに欠損値が1つある場合は、それをドロップするだけ)、平均を使用するのは最適とは言えず、結果にバイアスがかかる可能性があります。少なくとも不確実性の結果を修正する必要があります。
他にもいくつかのオプションがありますが、最も簡単に説明できるのは多重代入です。概念は単純です。データ自体のモデルに基づいて(たとえば、完全なケースから取得されますが、MICEのような他のオプションも利用できます)、関連する分布から値を描画してデータセットを「完成」します。次に、この完成したデータセットでは、不足しているデータがなくなり、関心のある分析を実行できます。
これを1回だけ行った場合(実際には、欠損値を平均で置き換えることはこれの非常に歪んだ形式です)、これは単一代入と呼ばれ、平均の置き換えよりもパフォーマンスが優れている理由はありません。
ただし、コツはこれを繰り返し(したがって多重代入)することであり、毎回完了した(=計算された)データセットごとに分析を行います。結果は通常、完成した各データセットのパラメータ推定値または同様のセットです。比較的緩い条件下では、これらのすべての帰属データセットに対してパラメーター推定値を平均しても問題ありません。
利点は、欠落したデータによって引き起こされる不確実性に対して標準誤差を調整する簡単な式も存在することです。
詳細を知りたい場合は、リトルとルービンの「欠落データを含む統計分析」を読んでください。これには、他の方法(EMなど)と、それらがどのように/なぜ/いつ機能するかについての詳細な説明も含まれます。
欠落しているデータの性質についてはあまり詳しく説明しませんでした。MCAR(ランダムに完全に欠落)を確認しましたか?MCARを想定できない場合、平均置換は推定器に偏りをもたらす可能性があります。
非数学的な出発点として、次の2つの参考文献をお勧めします。
欠損値がランダムに分布している場合、またはサンプルサイズが小さい場合は、平均値を使用した方がよい場合があります。最初にデータを2つの部分に分割します。1つは欠損値あり、もう1つは欠落し、2つのサンプル間のいくつかの主要な変数の平均値の違いをテストします。差がない場合は、平均を代入するか、観測値を完全に削除するだけのサポートがあります。
-ラルフ冬
データの欠落は、どこでも大きな問題の1つです。最初に次の質問にお答えください。1)データの何%が欠落していますか?-データの10%を超える場合、平均値でデータを代入するリスクはありません。そのような欠落を平均で補完することは、LRボックスに外観を伝えることと同じです。この変数は、ほとんどの場所を意味するため(結論を描画します)、LRボックスで提案に結論を描画したくないのですか?今、あまり必要ない場合にできることは少なくとも、この変数の使用可能な値をさまざまな予測子の値に関連付けたり、可能な場合はビジネスセンスを使用したりすることです。例:marriage_indが見つからない場合、結婚している人の年齢の中央値を見る方法かもしれません(29歳になると言わせてください)。私は一般的に(インドの)人々が30歳と29歳で結婚することを示唆していると思います。PROC MIは内部的にも処理を行いますが、はるかに洗練された方法で行います。2mycents..missingにリンクされている少なくとも4〜5の変数を参照し、相関関係を形成しようとします。これは、平均よりも優れている場合があります。
What is MI
は、さまざまなリソースのリストを提供します。