正規分布を仮定せずに外れ値を見つける


8

サイズが40〜50ポイントの小さなデータセットがあります。データが正規分布であると想定せずに、少なくとも90%の信頼度で外れ値を見つけたかったのです。私は箱ひげ図がそれを行うための良い方法であるかもしれないと思いました、しかし私はわかりません。

助けてくれてありがとう。

また、boxplot実装では、プロットを描画する以外に、外れ値を明示的に出力する実装を見つけることができませんでした。


7
90%の信頼度は?
ヘンリー

また、極端なケースの影響を軽減するために、研究者が観察の上下X%を落とすことも時々あります。しかし、私がそれに同意するかどうかはわかりません、それはかなり恣意的ではありませんか?
C.ピーターズ

データが正常に分布していると想定する必要はありませんが、処理しているデータがわかっているため、別のパラメトリック分布を使用できる場合があります。たとえば、待ち時間はポアソン分布であることがよくあります。次に、1つのポアソンデータポイントがそれらの特定の分布によって生成される可能性が高いかどうかを言うのは理にかなっています。
ジャックタナー

回答:


22

そのようなアルゴリズムは存在できないからです。何かを期待値の範囲外にあるものとして分類できるようにするには、想定される分布が必要です。

正規分布を想定している場合でも、データポイントを外れ値として宣言することは難しいビジネスです。一般に、多くの場合利用できない真の分布の適切な推定が必要なだけでなく、理論的に裏付けられた適切な決定の理由も必要です(つまり、被験者が実験セットアップを何らかの形で壊した)。このような判断は、通常、アルゴリズムで成文化することは不可能です。


11
+1。また、「90%の信頼度で」を使用すると、この場合に信頼度の概念が適用される方法が誤解されます。ある程度の信頼の基礎がなければ、信頼度を定量化する体系的な方法はありません。まるで「このスープは塩辛いのだとx%確信している」と言うかのように、それは恣意的なことになります。
rolando2 2012

5
@ rolando2、それはそうかもしれませんが、それでも、私はそれが良いコメントであると90%確信しています。
GUNG -復活モニカ

6

これはあなたの質問に直接答えるものではありませんが、R outliersTeachingDemosパッケージ内のデータセットを見て、ヘルプページの例に取り組むことで、何かを学ぶことができます。これにより、自動外れ値検出に関するいくつかの問題をよりよく理解できます。


2

Rは次のように外れ値を吐き出します

dat <- c(6,8.5,-12,1,rnorm(40),-1,10,0)
boxplot(dat)$out

これは箱ひげ図を描き、

[1]   6.0   8.5 -12.0  10.0

2
いいえ-ボックスプロットの「外れ値」のデフォルトの定義はより大きい1.5IQR1.5IQRIQR

4
>|1.5IQR|

5
1.5IQR2IQR

1
2*(1-pnorm(4*qnorm(.75)))[1] 0.006976603Set.seed(1); out = c(); for(i in 1:100) x = rnorm(50) y = boxplot(x, plot=F) out[i] = length(y$out)>=1} sum(out)/100[1] 0.3n=50

1
@gung:私が説明していたものに近いものをset.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/50000与える0.00738
Henry

1

他の人が言ったように、あなたは問題を自信に関して不十分に述べました。別の投稿で参照した、Grubbs検定やDixon比検定などの異常値の統計検定があります。Dixonの検定は小さなサンプルの正規性の仮定に対してロバストですが、母集団の分布は正規であると仮定しています。ボックスプロットは、データの外れ値を見つけるための優れた非公式な方法です。通常、ひげは5パーセンタイルと95パーセンタイルに設定され、ひげを超えてプロットされたオブザベーションは通常、可能性のある異常値と見なされます。ただし、これには正式な統計検定は含まれません。


2
これらの固定パーセンタイルにひげを設定することは、私には奇妙に思えます。これについてのリファレンスはありますか?(箱ひげ図を作成したテューキーは、この方法を使用しませんでした。四分位数に十分に近いが、1.5 "ステップ"(IQRの約1.5倍に等しい)を超えない場合、ウィスカを極端に設定しました。これは、異常なパーセンタイルを使用するよりもはるかに堅牢です。極端なパーセンタイルを使用すると、定義上、常にデータの10%が「外れ値」として識別されますが、これはあまり有用な手順ではありません。
whuber

普通に言ったほうがいいのかわかりません。ひげにはいろいろなポイントが使われていると思います。1パーセンタイルと99も使用されていると思います。しかし、最小値と最大値を使用すると、ひげ以外の異常値を見つけることができません。現時点で思い浮かぶ具体的なリファレンスはありません。5パーセンタイルと95パーセンタイルが使用されている場合、ひげの外側にあるものはすべて異常値になるとは思いませんでした。それらがひげの上または下になるため、視覚的にそれらを見ることができることを意味しました。
マイケルR.シェニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.