データから外れ値を削除しても大丈夫ですか？

33

データセットから外れ値を削除する方法を探しましたが、この質問を見つけました。

ただし、この質問に対するいくつかのコメントと回答では、データから外れ値を削除するのは悪い習慣であると人々は言及しました。

私のデータセットには、測定エラーが原因である可能性が高いいくつかの外れ値があります。それらのいくつかがそうでなくても、私はそれをケースバイケースでチェックする方法がありません。なぜなら、あまりにも多くのデータポイントがあるからです。外れ値を削除するだけでなく、統計的に有効ですか？または、そうでない場合、別の解決策は何ですか？

それらのポイントをそこに残すだけで、それらは現実を反映しない方法で平均に影響を与えます（それらのほとんどはとにかくエラーであるため）。

編集：私は皮膚コンダクタンスデータを扱っています。極端な値のほとんどは、誰かがワイヤーを引っ張るようなアーティファクトによるものです。

EDIT2：データの分析における私の主な関心は、2つのグループに違いがあるかどうかを判断することです

outliers

— シニーニョ
ソース

3

そして、あなたは何をしたいですか？データの概要？予測分析？データの可視化？2つのグループ間に有意差はないことを証明しますか？すべてのデータクリーニングと同様に、一般的な答えはありません。

— ピョートルミグダル

4

outliersタグを使用して質問をサイトで検索してください。特に、線形回帰分析で外れ値をどのように処理する必要がありますか？＆重回帰の実行時に統計ソフトウェアによって異常値としてフラグが付けられたケースを削除するかどうか。

— Scortchi -復活モニカ

5

私は多くの統計を扱うエンジニアです。それは免責事項であり、告白でした。つまり、製品を届けなければならないということです。完全に属性付けられた「不良」ポイントのみを削除できます。誰かがワイヤーを引っ張っていることを証明できますか？いくつかの意図的な測定値を取得する場合は、そこにバインドしてクラスター化できます。その後、クラスター上のデータを分割することができます（プルと非プル）。それはもはや外れ値ではありません。根本原因が何であるかを証明できない場合は、それを保持する必要があります。それは変化を意味し、それは分析の大きな部分です。気に入らなければ、それを取り除くことはできません。

— EngrStudent-モニカの復活16年

4

間違った終わりから始めると思います。最初の質問は、そもそもどうやって外れ値を特定するのですか？

— user603

5

arbitrarily意的に特定された外れ値をarbitrary意的に除去するのではなく、「ワイヤを引っ張る人などの問題から汚染があるので、そのような汚染の悪影響を受けない方法論を使用できますか？」

— Glen_b-モニカの復活16

26

メインの分析で外れ値を除外することはお勧めしません（間違っていると本当に肯定的でない限り）。ただし、感度分析でこれを実行し、2つの分析の結果を比較できます。科学では、このような外れ値に焦点を当てると、新しいものを正確に発見することがよくあります。

さらに詳しく説明するために、彼の実験のカビによる偶発的な汚染に基づいて、フレミングの独創的なペニシリンの発見について考えてみましょう。

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

過去または現在を見ると、異常値の検出は、生物医学の革新を導くためによく使用されます。たとえば、次の記事を参照してください（適切なRコードがいくつかあります）。

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

最後に、一部のデータを除外する合理的な根拠がある場合、できれば一次分析ではなく感度分析で行うことができます。たとえば、生物学的に妥当ではないすべての値（敗血症患者の摂氏48度など）を除外できます。同様に、特定の患者の最初と最後の測定値をすべて除外して、動きのアーチファクトを最小限に抑えることができます。ただし、（事前に指定された基準に基づかないで）事後的にこれを行うと、データマッサージに相当するリスクがあることに注意してください。

— Joe_74
ソース

5

同意しますが、私はこの答えを何らかの形で簡単に説明して、それを支持します。たぶん、実際の例を提供したり、外れ値に焦点を当てたときに新しいものを発見できる理由と方法を示すことができますか？これは一見するとそれほど明白ではないかもしれません。

— ティム

26

1つのオプションは外れ値を除外することですが、IMHOは、そのようなポイントが無効である理由を（ほぼ確実に）主張できる場合にのみ行うべきことです（たとえば、測定機器が故障した、測定方法が何らかの理由で信頼できなかった、など）。たとえば、周波数領域測定では、多くの異なる用語がDCに寄与するため、多くの場合、DCは破棄されます。これは、観測しようとしている現象とはほとんど関係ありません。

外れ値を削除する際の問題は、どのポイントが外れ値であるかを判断するために、「良いデータ」かどうかの良いモデルが必要なことです。モデルについて不明な場合（どの要因を含める必要があるか、モデルの構造、ノイズの仮定など）、外れ値を確認することはできません。それらの異常値は、モデルが間違っていることを伝えようとしているサンプルにすぎない可能性があります。言い換えると、外れ値を削除すると、新しい洞察を得るのではなく、（誤った！）モデルが強化されます。

別のオプションは、堅牢な統計を使用することです。例えば、平均と標準偏差は外れ値に敏感であり、「位置」と「広がり」の他のメトリックはより堅牢です。例えば、平均の代わりに、中央値を使用します。標準偏差の代わりに、四分位範囲を使用します。標準の最小二乗回帰の代わりに、ロバスト回帰を使用できます。これらの堅牢な方法はすべて、何らかの方法で異常値を強調しませんが、通常は異常値データを完全に削除しません（つまり、良いことです）。

— エゴン
ソース

5

素晴らしい答え。ほとんどの人は、すべての手法がすべての種類のデータに適しているわけではないことに気付いていません。外れ値に乗ったデータの平均に集中することは、残念な結果の1つです。このような回答から得られるモーニングコールが多ければ多いほど、すべての人にとって良い結果になります。

— -rumtscho

16

外れ値の削除に関する注意書きを追加すると思います：

極オゾン層の穴の問題を覚えていますか？特にオゾン濃度を測定するために、極上の軌道に置かれた衛星がありました。数年の間、衛星からの後処理されたデータは、他の情報源がオゾンが欠落していることを明確に示していたにもかかわらず、極オゾンが通常レベルで存在したことを報告しました。最後に誰かが戻って衛星ソフトウェアをチェックしました。それは、誰かがコードが生の測定は、典型的な歴史的な水準についての予想範囲内であったかどうかを確認するために、範囲外の測定はちょうど楽器「スパイク」（つまり、外れ値）だったと仮定して書かれていたことが判明し、自動値を修正します。幸いなことに、彼らは生の測定値も記録していました。それらをチェックすると、穴がずっと報告されていたことがわかりました。

— PMar
ソース

12

事件への言及を含めることは良いことです：なぜ彼らは以前に現象を発見しなかったのですか？残念なことに、TOMSデータ分析ソフトウェアは、予想される測定値から大きく外れたデータポイントにフラグを付けて設定するようにプログラムされていたため、アラームをオフにするはずの初期測定値が見過ごされていました。要するに、TOMSチームは、科学者が予想したよりもはるかに深刻だったため、数年前にオゾン層破壊を検出できませんでした。

— ジョニー

3

これは素晴らしい話です。繰り返しになりますが、私にはmath.uni-augsburg.de/stochastik/pukelsheim/1990c.pdfが誤解に基づく神話であると納得させています。ちなみに、2つの極があるため、「極性オゾン層」を書き換える必要があります。

— ニックコックス

3

信頼できるアカウントChristieも参照してください。M.2001。オゾン層A科学哲学の展望。ケンブリッジ：ケンブリッジUP

— ニックコックス

7

「外れ値」とは、分析から削除するために、プロセスがどのように見えるかを想定していないデータを一緒に収集するための便利な用語です。

外れ値を削除しないでください（後で注意してください）。私のバックグラウンドは統計的プロセス制御なので、多くの場合、データと分布に応じてランチャート/ムービングボックスプロットなどを使用して処理される大量の自動生成された時系列データを扱います。

外れ値のあることは、それらが常に「プロセス」に関する情報を提供することです。多くの場合、1つのプロセスとして考えているのは実際には多くのプロセスであり、それを信用するよりもはるかに複雑です。

あなたの質問の例を使用すると、いくつかの「プロセス」がある可能性があります。変動があります...

1つのコンダクタンスデバイスによって取得されたサンプル
コンダクタンスデバイス間で採取されたサンプル
被験者がプローブを取り外したとき
被写体が動いたとき
1人の被験者の体全体の皮膚内またはサンプリング日（髪、水分、油など）の違い
被験者間の違い
測定を行う人のトレーニングとスタッフ間の変動

これらのプロセスはすべて、データに余分な変動をもたらし、おそらく平均を移動させ、分布の形状を変更します。これらの多くは、個別のプロセスに分離することはできません。

データポイントを「外れ値」として削除するという考えに移ります... 分析に含めたくない特定の「プロセス」にデータポイントを明確に帰属させることができる場合にのみ、データポイントを削除します。次に、非包含の理由が分析の一部として記録されていることを確認する必要があるため、明らかです。帰属を仮定しないでください。これは、データ収集中に観察を通して余分なメモを取ることの重要なことです。

エラーはエラーではなく、測定値内で異なると特定した別のプロセスの一部であるため、「それらのほとんどはいずれにせよエラーであるため」というステートメントに挑戦します。

あなたの例では、分析したくない別のプロセスに帰することができるデータポイントを除外するのが合理的だと思います。

— マーカスD
ソース

6

外れ値を削除する場合、ほとんどの場合、削除していることとその理由を文書化する必要があります。これが科学論文用である場合、または規制目的である場合、最終的な統計値が割り引かれたり拒否されたりする可能性があります。

より良い解決策は、悪いデータを取得していると思うとき（たとえば、人がワイヤを引っ張るとき）を特定し、人がワイヤを引っ張るときを特定し、その理由でデータを引き出すことです。これにより、おそらくいくつかの「良い」データポイントが削除されますが、分析終了時ではなくコレクション終了時にこれらのデータポイントにタグを付けて割引く「本当の」理由があります。あなたがそれをきちんと透明にすれば、第三者にとっては受け入れられる可能性がはるかに高くなります。引っ張られたワイヤに関連するデータポイントを削除しても、外れ値が得られる場合、おそらく、引っ張られたワイヤは（唯一の）問題ではないという結論に達します。さらなる問題は、実験計画または理論にある可能性があります。

母が大学に戻って理学士号を取得した最初の実験の1つは、プロセスがどのように機能するかについての「悪い」理論を学生に与え、実験を行うように言われたものでした。結果の「不良」データポイントを削除または変更した学生は、課題に失敗しました。自分のデータが（悪い）理論によって予測された結果と一致しないと正しく報告した人々は合格しました。課題のポイントは、予想外のデータを「修正」（改ざん）しないように生徒に教えることでした。

要約：不正なデータを生成している場合は、データではなく実験を修正してください。

— ダークンク
ソース

5

それは確かに道徳的なジレンマです。一方で、いくつかの疑わしいデータポイントが、データの大部分に対するモデルの適合性を損なうのはなぜですか？一方、モデルの現実の概念と一致しない観測を削除することは、一種の検閲です。@Egonのポイントでは、これらの外れ値は、その現実について何かを伝えようとしている可能性があります。

統計学者のSteve MacEachernのプレゼンテーションで、彼は外れ値を「[研究中の現象の代表ではない]」と定義しました。、おそらく彼らは分析に属していません。または、滞在を許可されている場合は、影響を制限する方法を使用する必要があります。その同じプレゼンテーションで、MacEachernはロバストな方法の例を提供しましたが、これらの少数の例では、外れ値を削除した従来の方法は常に外れ値を含むロバストな分析に同意しました。個人的に、私は私が最も快適であり、外れ値の削除の道徳的な不確実性と一緒に暮らす古典的な手法で動作する傾向があります。

— ベン・オゴレク
ソース

8

Box、Hunter＆Hunter： "Statistics for Experimentalers"では、化学産業では、外れ値がしばしば新しい特許をもたらしたと彼らは語っています。新しい特許を破棄しますか？

— kjetil bハルヴォルセン16年

2

いいえ、特許を見逃したくありません。しかし、「誰かがワイヤを引っ張る」ことに対応するためにモデルを取得しようとして12サイクルを回したくはありません。それはほとんど間違いなく研究中の現象ではありません。私は機会として外れ値のアイデアが好きです、そして、簡単な削除のために言われることの1つは、少なくともコードがそれらの削除のドキュメントを提供するということです。一方、堅牢な方法では、外れ値は他のポイントと共存します。

— ベンオゴレク

2

特定の状況を考慮に入れる必要があるのは正しいことです。してはいけないことは、外れ値拒否のためにコンテキストに依存しない「ルール」を適用することです。そのような良いルールは存在しません。

— kjetil bハルヴォルセン

1

コンテキストのパワーに関する私のお気に入りのポイントは、「スニッカーズバーは健康ですか？」という質問で示されています。森で3日間行方不明になっていて、地面で何匹か見つけたばかりの場合、結局のところかなり健康であることがわかります。ここでの人気のある答えは、「スニッカーズバーを食べないでください。そうしないと死ぬことを絶対に確信していない限り」です。

— ベンオゴレク

0

私が100人のランダムなサンプルを実施し、そのうちの1人がたまたまビル・ゲイツである場合、私が知る限り、ビル・ゲイツは人口の100分の1を代表しています。

トリミングされた平均は、宝くじの平均収益が0ドルであることを示しています。

— AdamO
ソース

異常はありません。トリミングされた平均は、歪んだ分布には適していません。

— イヴダウスト

-2

もちろん、外れ値を削除する必要があります。定義により、それらは精査中の分布に従わず、寄生現象であるためです。

本当の問題は、「どうすれば外れ値を確実に検出できるか」です。

— イヴ・ダウスト
ソース

そのような分布がコーシーである場合はどうなりますか？

— AdamO

@AdamO：本当の問題はもちろん残っています。

— イヴ・ダウースト

なぜこの下票なのか？

— イヴ・ダウースト

3

（-1）これは、理論、例、または実践によって伝えられる適切な貢献だとは思わないからです。「寄生現象」とは何ですか？データの詩的な理解ですか？血圧、尿中ナトリウム、および神経画像の処理では、考慮中の人口を表す「異常値」が日々見られます。それらを削除することは、バイアスの大きな原因になる可能性があります。それらが「寄生現象」であると言うことは、危険な統計的手法を暗示的かつ虚偽的に可能にします。

— AdamO

@adam：インライアーを維持することを支持しているだけです。

— イヴ・ダウスト