回答:
Don Rubinは、公平な推論を生成する単一の代入法がないことを証明する影響力のある論文を書きました(「単一の代入」とは、欠落している観測値に対して1つの値のみを代入することを意味します)。ただし、同じ論文で、平均が欠損値の不偏推定値であり、その後の分析での分散の増加への寄与がデータに起因する追加の不確実性の合理的な推定値である複数の代入を作成できる可能性があることを指摘しました。行方不明。
これは彼の論文です:
ルビン、DB(1976)。推論と欠損データ。Biometrika、63(3):581–592。
そして、これに対する更新:Rubin、DB(1996)。18年以上後の複数の転帰。Journal of the American Statistical Association、91(434):473–489。
そして、これは多重代入のトピックへの穏やかな導入です:
シェーファー、JL(1999)。多重代入:入門書。医学研究における統計的方法、8:3–15。
複数の代入をサポートするさまざまな統計ソフトウェアパッケージがあります(たとえば、Rではマウス、Stataでは氷、または実際には最近のバージョンではStataの組み込みの複数代入機能)。
これを行うことは決して良い考えではありませんが、欠けているデータが非常に少ない場合は、害が比較的少なく、実装がはるかに簡単で、最終的なオーディエンスによっては説明がはるかに簡単になる場合があります。しかし、比較的洗練された聴衆は、単一の平均代入に反対するかもしれません。
質問: 「どの補完方法が最良の選択であるか」は、常にあなたが見るデータセットに依存します
平均すると、一般的に有効な補完法です。誰かがすでに述べたように、出版物について説明するのは簡単であり、それは計算速度においてその利点を持っています。
補完方法としての平均は、特定の値/レベルを中心にランダムに変動する系列に適しています。
示されている系列では、平均値は適切に見えません。これも1つの変数にすぎないため、マウス、アメリア、VIMが提供する従来の多変量アルゴリズムを使用することはできません。
特に時系列アルゴリズムを調べる必要があります。1つの単純ですが、例としては、アプローチのような良い方法は、線形補間です。
library(imputeTS)
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)
線形補間の出力は次のとおりです。
[1] 1.00000 8.00000 12.00000 14.00000 15.66667 17.33333 19.00000
これはおそらく平均よりも良い結果です。
また、imputeTSパッケージ(私が作成したもの)または予測パッケージ(Rob Hyndmanが作成したもの)には、より高度な時系列メソッドがあります。