標準偏差を使用した外れ値の検出


27

ここでの質問に続いて、外れ値を検出するための標準偏差の使用について、または反対の強い見解があるのではないかと考えています(たとえば、2標準偏差を超えるデータポイントは外れ値です)。

これは研究の文脈に依存していることを知っています。例えば、データポイントの48kgは確かに赤ちゃんの体重の研究では外れ値になりますが、大人の体重の研究ではそうではありません。

外れ値は、データ入力ミスなどの多くの要因の結果です。私の場合、これらのプロセスは堅牢です。

私が尋ねている質問は、標準偏差を使用して外れ値を検出するための適切な方法ですか?


1
「私の場合、これらのプロセスは堅牢です」と言います。何を意味します?データ入力の間違いがないことを確認してください。
ウェイン

ここには非常に多くの良い答えがあり、どの答えを受け入れるべきかわかりません!これに関するガイダンスは役立ちます
アマラルド

一般的に、あなたが質問に最も直接的かつ明確に答えていると思うものを選択します。それがわかりにくい場合は、私は最高の票を持っているものを選びます。どれを決めるのか少し苦労しても、時間をかけて答えてくれた人に報いることが重要です。
ウェイン

1
PS「これらのプロセスは堅牢です」とはどういう意味かをメモで明確にしていただけますか?正常性などに焦点を当てた答えには重要ではありませんが、何らかの意味があると思います。
ウェイン

3
外れ値はモデルフリーではありません。あるモデルの下での異常な異常値は、別のモデルの下では完全に普通のポイントかもしれません。最初の質問は、「なぜ異常値を検出しようとしているのか」です。(堅牢なメソッドを使用するなど、他のことを行うのではなく)、2つ目は「特定のアプリケーションで観測を異常値にするものは何ですか?」
Glen_b -Reinstateモニカ

回答:


26

一部の外れ値は明らかに不可能です。赤ちゃんの体重は48 kgと言います。これは明らかにエラーです。それは統計的な問題ではなく、実質的な問題です。48 kgの人間の赤ちゃんはいません。どんな統計的方法でもそのような点を特定します。

個人的には、テスト(@Michaelが推奨する適切なテストでさえ)に依存するのではなく、データをグラフ化します。特定のデータ値(または複数の値)がある仮説分布の下でありそうもないことを示すことは、値が間違っていることを意味しないため、値が極端だからといって自動的に削除されるべきではありません。

さらに、提案するルール(平均から2 SD)は、コンピューターが作業を簡単にする前の時代に使用されていた古いルールです。Nが100,000である場合、完全な正規分布がある場合でも、平均から2 SDを超えるかなりの数の値が確実に期待されます。

しかし、分布が間違っている場合はどうでしょうか?人口では、問題の変数正規分布ではなく、それよりも重い裾があると仮定しますか?


1
あなたが可能だと考える赤ちゃんの体重の最大値は何ですか?
mark999

2
知りません。しかし、記録を調べることはできます。(クイックグーグルからの)answers.comによると、それは23.12ポンドで、巨人の両親2人に生まれました。私が調査を行っていた場合は、さらに確認します。
ピーターフロム-モニカの復職

データを視覚的に検査できない場合(つまり、自動プロセスの一部である可能性がある場合)
-user90772

何らかの形でグラフを自動化に追加します。
ピーターフロム-モニカの復職

24

はい。ウルティエを「検出」するのは悪い方法です。正規分布データの場合、このようなメソッドは、完全に良好な(まだ少し極端な)観測の5%を「外れ値」と呼びます。また、サイズnのサンプルがあり、非常に高いまたは低い観測値を探してそれらを外れ値と呼ぶ場合、実際には極端な順序の統計値を見ています。正規分布サンプルの最大値と最小値は、正規分布ではありません。したがって、テストは極値の分布に基づいている必要があります。これは、以前に何度か言及したように、GrubbsのテストとDixonの比率テストが行​​うことです。外れ値に適切なテストを使用する場合でも、異常に極端であるという理由だけで、観測を拒否するべきではありません。極端な観測が最初に発生した理由を調査する必要があります。


1
低いp値に基づいてH0を拒否するのと同じように「悪い」。
レオ

16

外れ値の可能性がある平均からの標準偏差の数を尋ねるとき、外れ値自体がSDを上げ、平均値にも影響することを忘れないでください。N個の値がある場合、平均からの距離をSDで割った比が(N-1)/ sqrt(N)を超えることはありません。もちろん、これは小さなサンプルで最も重要です。たとえば、N = 3の場合、外れ値が平均から1.155 * SDを超えることはないため、値が平均から2 SDを超えることは不可能です。(もちろん、これは手元のデータからサンプルSDを計算しており、母集団SDを知る理論的な理由がないことを前提としています)。

Grubbsテストの臨界値は、これを考慮して計算されたため、サンプルサイズに依存します。


12

コンテキストがすべてだと思います。与えられた例では、明らかに48 kgの赤ちゃんは間違いであり、2つの標準偏差を使用するとこのケースをキャッチします。ただし、2つの標準偏差(またはSDの他の倍数)の使用が他のデータに適していると考える理由はありません。たとえば、地表水中の残留農薬を調べている場合、2標準偏差を超えるデータはかなり一般的です。これらの特に高い値は、雨のイベント、最近の農薬散布などによるものであるため、平均から遠く離れていても「外れ値」ではありません。もちろん、他の「経験則」(1.5× SD、または3.1415927×SD?)、しかし、率直に言って、このようなルールは防御するのが難しく、それらの成功または失敗は、調べているデータによって変わります。主観性にもかかわらず、判断と論理を使用すると思います。任意のルールを使用するよりも、外れ値を取り除くためのより良い方法です。この場合、48 kgの異常値を検出するために2×SDは必要ありませんでした-推論することができました。それは優れた方法ではありませんか?あなたがそれを推論することができない場合、まあ、任意のルールはより良いですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.