どちらが良いですか、平均による置換と中央値による置換ですか?


9

私は一連のデータの欠損値を置き換えることを含むプロジェクトを行っています(これを初めて行う)。これは、2つのメソッドを使用することを含むreplacement by meanreplacement by median欠損値を埋めるために。両方の方法を使用したデータの最小値、中央値、最大値、平均値、および標準偏差の結果に大きな違いはなく、どちらの方法が優れているか、どの方法を使用してどちらが優れているかを判断するにはどうすればよいか疑問に思いました結果は?


2
欠損値を平均に置き換えると、当然平均が保持されます。同上中央値。極端な変化もありません。通常、SDはわずかに減少しますが、これを頻繁に行うと大幅に減少します。これらはあなたが行うことの予測可能な結果であり、メソッドが優れているという事実を示すものではありません。
Nick Cox

このような自動「ソリューション」で欠損値(MV)をプラグインするアナリストは、結果を考慮していません。これは、簡単に実装できるアプローチです。もちろん、この「解決策」は、通常は滑らかなpdfが、MVの数の関数として、差し込まれた値で大きなスパイクになるため、解決するのと同じくらい多くの問題を引き起こします。モデルベースの補完は、どの自動化アプローチよりも明らかに優れており、偏りが少ないです。@NickCoxは、彼の提案が示唆していることにかかわらず、これについて無知であってはなりません。
マイクハンター

1
:@DJohnson ... 方法が優れているという事実を示すものではありません。十分にはっきりしていませんか?
Nick Cox

カテゴリ値は、指定された列で最も一般的な値を表すため、通常、モードに帰属します。
Sandeep Kar

回答:


9

それは常にデータとタスクに依存します。

異常値が大きいデータセットがある場合は、中央値を使用します。例:世帯収入の99%が100未満、1%が500を超えています。

一方、お客様がドライクリーニング業者に提供する衣服を扱う場合(ドライクリーニングのオペレーターがこのフィールドに直感的に記入すると仮定した場合)、欠けている部分を平均の摩耗値で埋めます。

データの理解から始めることをお勧めします。この記事は、出発点として役立ちます。


私が使用しているデータは0から1の範囲で、0.1、0.2、0.3 ...から1の範囲のヒストグラムを作成しました。私は多くの異なる制限とアウトラインを持っているので、平均が最も良いと言えますか?
Jake MB

@ JakeM-B、データへの直接アクセスとデータの履歴がない場合、良いアドバイスをするのは難しいです。多くの場合、データの欠損値は、値がゼロ(またはデフォルトとして何か)であることを意味します。あなたの場所で(平均と中央値の間に大きな違いがない場合)、私は両方を試して、結果が結果にどのように影響するかを確認します。
Aleksandro M Granda

6

インピュテーションは、目標そのものではなく、目標への手段です。状況によっては、欠落しているデータを置き換えるのが間違っている場合があります。たとえば、データ欠落に関するウィキペディアのページで説明されているように、データが欠落している理由に最初に注意を払い、プロジェクトが回答しようとしている質問に答えるために代入が実際に適切であることを確認してください。

いくつかの仮定が満たされ(たとえば、欠損値を含む変数の確率が値自体に依存しない場合、技術的に「ランダムに欠損」と呼ばれます)、スタディに複数の変数が含まれる場合、複数の代入を使用したほうがよい場合があります。手段または中央値による置換ではなく。多重代入では、すべての変数の既知の値を使用して、欠損データの推定値のセットがいくつか提供されます。このアプローチは、変数間の根本的な関係と推定の信頼性の両方のより良い推定を提供できます。詳細については、multiple-imputationタグのあるこのサイトの質問を参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.