補完のために平均を使用するのはいつ良い考えですか?


9

データセットのテストがあるとします:

1
8
12
14
.
.
19

. 意味は、欠損値。データが正規分布からのものであると仮定するのではなく、非欠損値の平均を使用して欠損値を代入するほうが良い場合はいつですか?

回答:


7

Don Rubinは、公平な推論を生成する単一の代入法がないことを証明する影響力のある論文を書きました(「単一の代入」とは、欠落している観測値に対して1つの値のみを代入することを意味します)。ただし、同じ論文で、平均が欠損値の不偏推定値であり、その後の分析での分散の増加への寄与がデータに起因する追加の不確実性の合理的な推定値である複数の代入を作成できる可能性があることを指摘しました。行方不明。

これは彼の論文です:

ルビン、DB(1976)。推論と欠損データ。Biometrika、63(3):581–592。

そして、これに対する更新:Rubin、DB(1996)。18年以上後の複数の転帰。Journal of the American Statistical Association、91(434):473–489。

そして、これは多重代入のトピックへの穏やかな導入です:

シェーファー、JL(1999)。多重代入:入門書。医学研究における統計的方法、8:3–15。

複数の代入をサポートするさまざまな統計ソフトウェアパッケージがあります(たとえば、Rではマウス、Stataでは、または実際には最近のバージョンではStataの組み込みの複数代入機能)。


2
ルービンの要点は、注意深く単一の代入を使用して公平なポイント推定値を取得できることですが、標準誤差は間違っています。ただし、多くの場合、補完には他の問題があり、特に他の変数との関連のパターンが歪むことになります。
Maarten Buis 2014年

@MaartenBuisありがとう、私は私のリビジョンでそれを修正しようとしました...それはうまくいきますか?
Alexis 2014年

あんまり。(複数の)代入のポイントは、欠損値を推定することではなく、それらは永久に失われると想定されています。ただし、これらの個人/企業/牛について他のことをよく知っています。(複数の)代入では、その観測されたデータを最も効果的に使用する必要があります。少なくとも1つの欠損値を持つすべての観測を無視した場合、それらは破棄されます。
Maarten Buis 2014年

1
p

4

これを行うことは決して良い考えではありませんが、欠けているデータが非常に少ない場合は、害が比較的少なく、実装がはるかに簡単で、最終的なオーディエンスによっては説明がはるかに簡単になる場合があります。しかし、比較的洗練された聴衆は、単一の平均代入に反対するかもしれません。


1
たとえば、平均代入に基づく結果を、妥当な最小代入と最大代入を含む結果にまとめることで、感度分析を実行することもできます。
Alexis 2014年

1

質問: 「どの補完方法が最良の選択であるか」は、常にあなたが見るデータセットに依存します

平均すると、一般的に有効な補完法です。誰かがすでに述べたように、出版物について説明するのは簡単であり、それは計算速度においてその利点を持っています。

補完方法としての平均は、特定の値/レベルを中心にランダムに変動する系列に適しています。

示されている系列では、平均値は適切に見えません。これも1つの変数にすぎないため、マウス、アメリア、VIMが提供する従来の多変量アルゴリズムを使用することはできません。

特に時系列アルゴリズムを調べる必要があります。1つの単純ですが、例としては、アプローチのような良い方法は、線形補間です。

library(imputeTS)   
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)

線形補間の出力は次のとおりです。

[1]  1.00000  8.00000 12.00000 14.00000 15.66667 17.33333 19.00000

これはおそらく平均よりも良い結果です。

また、imputeTSパッケージ(私が作成したもの)または予測パッケージ(Rob Hyndmanが作成したもの)には、より高度な時系列メソッドがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.