私は一連のデータの欠損値を置き換えることを含むプロジェクトを行っています(これを初めて行う)。これは、2つのメソッドを使用することを含むreplacement by mean
とreplacement by median
欠損値を埋めるために。両方の方法を使用したデータの最小値、中央値、最大値、平均値、および標準偏差の結果に大きな違いはなく、どちらの方法が優れているか、どの方法を使用してどちらが優れているかを判断するにはどうすればよいか疑問に思いました結果は?
私は一連のデータの欠損値を置き換えることを含むプロジェクトを行っています(これを初めて行う)。これは、2つのメソッドを使用することを含むreplacement by mean
とreplacement by median
欠損値を埋めるために。両方の方法を使用したデータの最小値、中央値、最大値、平均値、および標準偏差の結果に大きな違いはなく、どちらの方法が優れているか、どの方法を使用してどちらが優れているかを判断するにはどうすればよいか疑問に思いました結果は?
回答:
それは常にデータとタスクに依存します。
異常値が大きいデータセットがある場合は、中央値を使用します。例:世帯収入の99%が100未満、1%が500を超えています。
一方、お客様がドライクリーニング業者に提供する衣服を扱う場合(ドライクリーニングのオペレーターがこのフィールドに直感的に記入すると仮定した場合)、欠けている部分を平均の摩耗値で埋めます。
データの理解から始めることをお勧めします。この記事は、出発点として役立ちます。
インピュテーションは、目標そのものではなく、目標への手段です。状況によっては、欠落しているデータを置き換えるのが間違っている場合があります。たとえば、データの欠落に関するウィキペディアのページで説明されているように、データが欠落している理由に最初に注意を払い、プロジェクトが回答しようとしている質問に答えるために代入が実際に適切であることを確認してください。
いくつかの仮定が満たされ(たとえば、欠損値を含む変数の確率が値自体に依存しない場合、技術的に「ランダムに欠損」と呼ばれます)、スタディに複数の変数が含まれる場合、複数の代入を使用したほうがよい場合があります。手段または中央値による置換ではなく。多重代入では、すべての変数の既知の値を使用して、欠損データの推定値のセットがいくつか提供されます。このアプローチは、変数間の根本的な関係と推定の信頼性の両方のより良い推定を提供できます。詳細については、multiple-imputation
タグのあるこのサイトの質問を参照してください。