データセットから外れ値を削除する方法を探しましたが、この質問を見つけました。
ただし、この質問に対するいくつかのコメントと回答では、データから外れ値を削除するのは悪い習慣であると人々は言及しました。
私のデータセットには、測定エラーが原因である可能性が高いいくつかの外れ値があります。それらのいくつかがそうでなくても、私はそれをケースバイケースでチェックする方法がありません。なぜなら、あまりにも多くのデータポイントがあるからです。外れ値を削除するだけでなく、統計的に有効ですか?または、そうでない場合、別の解決策は何ですか?
それらのポイントをそこに残すだけで、それらは現実を反映しない方法で平均に影響を与えます(それらのほとんどはとにかくエラーであるため)。
編集:私は皮膚コンダクタンスデータを扱っています。極端な値のほとんどは、誰かがワイヤーを引っ張るようなアーティファクトによるものです。
EDIT2:データの分析における私の主な関心は、2つのグループに違いがあるかどうかを判断することです