外れ値の厳密な定義?


44

多くの場合、統計で異常値を扱うことについて話します。これについて私を悩ませているのは、私が知る限り、外れ値の定義は完全に主観的であるということです。たとえば、あるランダム変数の真の分布が非常に裾が大きく、または二峰性である場合、外れ値を検出するための標準の視覚化または要約統計は、サンプリングしたい分布の部分を誤って削除します。異常値が存在する場合、その異常値の厳密な定義とは何ですか?また、分析に不当な量の主観性を導入することなく、異常値にどのように対処できますか?


特定のディストリビューションについて知りたい場合は、例について尋ねてください。状況によって異なります。
ジョン

8
さて、客観的な態度rigorous definition of an outlierを定義できるようになる時期があると思いますunreasonable amounts of subjectivity;-)、ありがとう
食べる

1
ただし、定義は基礎となる分布と状況によって異なる場合があります。±1.5 IQR、3 SD、またはそのようなものと言えます。しかし、反応時間と精度など、2種類の方法がある場合は、まったく異なるアプローチを取ることができます。RTは精度のレベルに条件付けられていると言えます。それらはすべて優れた数学的に厳密なものであり、さまざまな用途と意味を持つことができます。
ジョン

2
外れ値には多くの厳密な定義があります。しかし、それらの間の選択はarbitrary意的に見えるかもしれません。しかし、これは統計が各問題に1つの正解がある主題であるという誤解の一部だと思います。
ピーターフロム-モニカの復職

回答:


23

既知のプロパティを持つ既知の分布からデータが得られる限り、観察されたプロセスによって生成された可能性が低すぎるイベントとして外れ値を厳密に定義できます仮説検定はすべて)です。

ただし、このアプローチには2つのレベルで問題があります。データが既知のプロパティを持つ既知の分布からのものであると想定し、いくつかの魔法の妖精によってデータセットに密輸されたデータポイントとして外れ値が見られるリスクをもたらします。

魔法のデータフェアリーが存在しない場合、すべてのデータは実験から取得されるため、実際には外れ値を持つことはできず、奇妙な結果になります。これらは、記録エラー(たとえば、4ドルの寝室400,000ドル)、体系的な測定の問題(オブジェクトが境界に近すぎる場合、画像分析アルゴリズムが巨大な領域を報告する)実験の問題(時々、結晶が溶液から沈殿する、非常に高い信号を与える)、またはシステムの機能(セルは2つではなく3つに分割される場合があります)が、それらはまれであり研究を行っているため誰も考えたことのないメカニズムの結果である可能性がありますつまり、あなたがすることのいくつかは、単にまだ知られていないということです。

理想的には、すべての異常値を調査するために時間をかけ、モデルに適合しない理由を理解してからデータセットからそれを削除するだけです。理由は実験に大きく依存するという点で時間がかかり、主観的ですが、代替策はさらに悪いです:外れ値がどこから来たのかわからない場合は、外れ値に結果を「混乱」させるか、または、「数学的に厳密な」アプローチを定義して、理解不足を隠します。言い換えれば、「数学的な厳密さ」を追求することにより、あなたは重要な効果を得ないか天国に入らないかを選択します。

編集

すべてのデータがインライアーである分布を常に想定できるため、持っているのがそれらがどこから来たかを知らない数字のリストだけである場合、データポイントが外れ値であるかどうかを判断する方法はありません。


3
ただし、すべての外れ値が実験から生成されるわけではありません。ある地域の不動産情報(販売価格、寝室の数、面積など)のコレクションを含む大きなデータセットを使用しましたが、データ入力ミスが時々あり、 400,000ベッドルームの家は4ドルか、そのような無意味なものになります。外れ値を判断する目的の一部は、データから生成できるのか、それとも単なる入力エラーなのかを確認することだと思います。
クリストファーアデン

2
@Christopher Aden:実験プロセスのその部分を検討します。基本的に、外れ値を削除できるようにするには、データがどのように生成されたかを理解する必要があります。つまり、正当な理由なしに外れ値を削除しないでください。それ以外の場合は、データを定型化しています。これを少し良く反映するように回答を編集しました。
ジョナス

これは完全に合理的ですが、実際の分布が何であるかについて十分な事前知識があることを前提としています。私はあなたがそうしないシナリオの観点からもっと考えていました、そしてそれは非常に重い尾またはバイモーダルになる可能性があります。
dsimcha

@dsimcha:その場合、外れ値を特定できるとは思わない(私の編集も参照)。
ジョナス

2
@dsimcha-あなたは常に事前の知識を持っています!データはどのように与えられましたか?あなた いつもそんなに知っています。データが魔法のように表示されるだけではありません。そして、あなたはいつでも暫定的な仮定をすることができます。これらの仮定に基づく「外れ値」は、基本的に、仮定の何かが間違っているという手がかりを与えてくれます。「外れ値」(常に相対的)を調べることで、モデルを改善できます。
確率

13

外れ値を削除することは主観的な演習のように見えるかもしれませんが、それが間違っているという意味ではありません。データ分析に関するすべての決定に対して常に厳密な数学的理由を持つ必要性は、とにかく主観的な運動であることが判明したことに対する単なる人工的な厳密さの薄いベールです。これは、遭遇するすべての状況に同じ数学的正当化を適用する場合に特に当てはまります。(すべてに対して防弾の明確な数学的な規則があれば、統計学者は必要ないでしょう。)

たとえば、ロングテール分布の状況では、外れ値を持つ関心のある分布を1つと、外れ値がそのうちの1つだけの一部である関心のある分布を2つ持つかどうかを数値から決定するだけの保証された方法はありません。または、天国ではなく、データの実際の配布だけを禁止しています。

収集するデータが多いほど、分布の低確率領域に多く入ります。20個のサンプルを収集する場合、zスコアが3.5の値を取得することはほとんどありません。10,000個のサンプルを収集する場合、サンプルを取得する可能性が高く、これは自然な分布の一部です。上記を考えると、それを除外するために極端なものがあるという理由だけで、どのように決定しますか?

分析のために一般的に最良の方法を選択することは、多くの場合主観的です。それが不当に主観的であるかどうかは、決定の説明と外れ値に依存します。


+1 外れ値に関する本書いた BarnettとLewisは、「データセットの外れ値は、そのデータセットの残りと矛盾するように見える観測(または観測のサブセット)です」と述べています[p 。7]。彼らは続けて、「観察者が監視のために選ばれるかどうかは、観察者側の主観的な判断の問題です。「異常値」を特徴付けるのは、観察者への影響です... 」
whuber

「本」はここでは少しあいまいです。私はバーネットとルイスを主要なモノグラフと考えていますが、外れ値に関する本だけではありません。amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955は最近です。DM Hawkinsによる古い本もあります。
ニックコックス

9

基盤となるプロセスのモデルがデータを生成することを想定せずに、外れ値を定義することは不可能だと思います。そのようなモデルがなければ、データが異常であるか「間違っている」かを判断するための基準枠がありません。私が有用だと思った外れ値の定義は、外れ値は、それ以外の場合はうまく機能するモデルに調整できない観測値であるということです。


2
うーん...彼のEDAテキストでは、John Tukeyはモデルをまったく使用せずに外れ値を明確に定義しました。
whuber

7
モデルなしで外れ値を定義できますが、そのような定義は役に立たないことがわかりました。ところで、モデルによって、私は必ずしもデータに明示的に適合した統計モデルを意味するわけではありません。外れ値の定義では、表示される値の種類と表示されない値の種類について、何らかの仮定を行う必要があります。これらの仮定(モデル)を明示的にする方が良いと思います。また、EDAではデータを調査しているため、外れ値の定義は、EDAの場合と最終モデルのフィッティングの場合とでは大きく異なる可能性があるという点もあります。
ディクランマースピアル

6

ここには多くの優れた答えがあります。ただし、2つの質問が混同されていることを指摘したいと思います。1つ目は、「異常値とは何か」であり、より具体的にはそのような「厳密な定義」を提供することです。これは簡単です:

外れ値とは、学習対象のデータ/残りのデータとは異なる母集団/分布/データ生成プロセスに由来するデータポイントです。

2番目の質問は、「データポイントが外れ値であることをどのようにして知る/検出するか」です。残念ながら、これは非常に困難です。ただし、ここで示された回答(実際には非常に優れており、改善することはできません)は、そのタスクに非常に役立ちます。


1
これは考えさせる答えです。したがって、正規分布から iid値を生成すると仮定しますそれらは約から範囲に及ぶ可能性が高いですそして、正規分布からもう1つの値を生成します。等しくたまたま(約ありますそのためでチャンス)。余分なが異常値であると判断されることはほとんどありません。本当にそうだと主張しますか?あなたの引用は私にそのように思わせますが、私はこれがどのように実際に運用できるようになるかわかりません。0 1 - 2.5 2.5 4 1 2 1 40 299(0,1)2.52.5(4,1)21402
whuber

1
@whuber、はい。あなたは決して気付かないでしょう、それ外れ値であると言います(実際に運用上意味するのはそれだと思います)。
GUNG -復活モニカ

1
あなたが行っている区別に感謝します。あなたの定義と、このスレッドの他のほとんどの定義や外れ値の説明との明確な対比を指摘したかっただけです。それは満足のいく実用的な手順につながるとは思えません。データセットの大部分が「範囲外」である可能性があることを常に検出する必要がありますが、それを検出または解決する方法はありません。
whuber

@whuber、私は心から同意します。私はこれを仮説検定に大まかに類似していると考えます。(たとえば)2つのグループは非常に小さい、検出できない量、または中程度の量で異なる場合がありますが、最終的には偶然だけでサンプルが非常に似ていました。それにもかかわらず、理論的な観点からは、区別を理解して維持する価値があります。
GUNG -復活モニカ

1
@whuber、あなたは正しい。この区別をする人もいますが、多くはこれらのアイデアについて明確ではありません。私の立場は、汚染物質以外に「異常値」の意味のある現実はないということです。それにもかかわらず、人々は、あなたの結果がそれらだけで駆動されている場合(それらが「本物」であるかどうかに関係なく)、ポイントについて懸念しているとして/代わりに問題を考える必要があります。したがって、結果は非常に脆弱です。要するに、あなたの母集団からのものであり、あなたの結果を独自に駆動していない点について心配する理由はありません。これらの2つの問題に対処したら、「異常値」には何も残りません。
GUNG -復活モニカ

6

定義1:すでに述べたように、同じプロセス(プロセスAなど)を反映するデータのグループの外れ値は、プロセスA の結果とは考えられない観測(または観測のセット)です。

この定義には、確かにプロセスAの尤度関数の推定(したがってモデル)が含まれ、ありそうにない意味の設定(つまり、停止する場所の決定...)が含まれます。この定義は私がここで答えた根源にあります。これは、有意性または適合度仮説検定のアイデアに関連してます。

定義2外れ値は観測グループ観測であるため、特定のモデルで観測グループをモデル化する場合、を削除して個別に処理すると精度が高くなります(ここで言及するのは、混合で))。G xxGx

この定義には、「与えられたモデル」と精度の尺度が含まれます。この定義は実際的な側面からのものであり、外れ値の起源にあると思います。Originでは、異常値の検出は堅牢な統計のためのツールでした。

最初の定義での尤度の計算にはスコアのモデリングと計算が含まれることを理解している場合、明らかにこれらの定義は非常に似たものにすることができます:)


2

外れ値は、このデータを生成するプロセスの現在の理解を考えると、私にとって不便なデータポイントです。

この定義はできる限り厳密であると思います。


これとは対照的に、ジョン・テューキーの定義(「外部」という用語を使用しました):「値のバッチを見ると、特定の値が他の値をはるかに超えているように見えます。...の規則があると便利です。特定の値を「外側」として選択する親指...」後で彼はこれを「...異常な可能性のある個々の値の識別」と要約します。[EDA、第2章]。彼は本全体を通して、「プロセスを理解する」ふりをするのではなく、データ説明していること、そして複数の有効な説明が常に可能であることを強調しています。
whuber

同様に、「外れ値は、サンプルの大部分に関して驚きを引き起こすサンプル値です」(WN Venables and BD Ripley。2002. S. New York による最新の応用統計:Springer、p.119)。しかし、驚きは見る人の心にあり、データの暗黙的または明示的なモデルに依存しています。異常値がまったく驚くべきものではない別のモデルがあるかもしれません。たとえば、データは実際には正規ではなく対数正規またはガンマです。
ニックコックス

@Nickこれは、ジョンの答えに対するコメントで引用したバーネットとルイスと一致しています
whuber

@whuber:あなたは「これと対照的」と言いますが、これはあなたが同意しないことを意味すると思いますが、私にはわかりません。暗黙的で素朴なモデル形成がデータのパターン、月の男、または外れ値を見る理由であると私は主張します。モデルには物理学/化学/経済的根拠がないかもしれませんが、モデルを仮定しました。そうでなければ、驚きはなく、「外部」はありません。
ウェイン

テューキーは、データを記述する際に必ずしもそれらをモデル化するとは限らないと主張しています。「モデル」の定義を拡張してデータの説明を含めることは適切ですが、その用語はほとんど一般的になりすぎて有用ではありません。Tukeyの観点からは(もちろん私が解釈しているように)、顔を失う心配はなく、利便性の問題もありません。したがって、私はあなたのモチベーションを尊重しますが、あなたの態度(「顔を節約する」と「不便」に反映される)は、この質問に対する他のアプローチより建設的ではないと思います。
whuber

0

すべての(2 ^ n -1)個の一意のサブセットで95%の信頼レベルで実施されたRUMテストに100%準拠することを保証するために、サイズnのデータセットから削除する必要がある要素の最小セットのメンバーとして外れ値を定義するデータ。RUMテストの定義については、Rを使用したPDFへのデータのフィッティングに関する2010年9月のKarianおよびDudewiczのテキストを参照してください。


-2

外れ値は、頻繁な領域でのみ重要です。単一のデータポイントが、理論によって事前に決定された基礎となる分布によって定義されるバイアスをモデルに追加する場合、それはそのモデルの外れ値です。主観性は、理論が異なるモデルを仮定する場合、外れ値として異なるポイントのセットを持つことができるという事実にあります。


1
ベイズのデータ​​分析では、外れ値は重要ではないと主張していますか?
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.