外れ値のBox and Whisker Plot定義の根拠は何ですか?


17

Box and Whiskerプロットの外れ値の標準定義は、範囲外側の点です。ここで、およびは最初の四分位数、データの3番目の四分位数です。 I Q R = Q 3 Q 1 Q 1 Q 3{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

この定義の根拠は何ですか?多数のポイントがある場合、完全に正規分布でも外れ値が返されます。

たとえば、次のシーケンスで開始するとします。

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

このシーケンスにより、4000ポイントのデータのパーセンタイルランキングが作成されます。

qnormこのシリーズの正規性をテストすると、次の結果が得られます。

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

結果は予想どおりです。正規分布の正規性は正規です。を作成すると、qqnorm(qnorm(xseq))(予想どおり)データの直線が作成されます。

データのqqnormプロット

同じデータの箱ひげ図が作成された場合boxplot(qnorm(xseq))、結果が生成されます。

データの箱ひげ図

箱ひげ図とは異なりshapiro.testad.testまたは qqnorm識別いくつかの外れ値としてのポイントをサンプルサイズが十分に大きい場合(この例のように)。


「基礎」とはどういう意味ですか?このいくつかの定義であり、そして誰もが完全に正規分布が異常値を持っていないと言うん
ハイタオ・ドゥ

2
@ hxd1011、分布の定義はそれ自体から外れ値になることはできません。ボックスとウィスカプロットの外れ値をテストするためのこの定義は、テストの基礎となるものが何であれ、結果を提供するために/ something /をテストしています。
タヴロック

ボックスとウィスカの外れ値の定義は単なるヒューリスティックなものだと思います...また、分布の定義が自己からの外れ値を持つことができないのはなぜですか?
ハイタオデュ

3
どの規則を選択しても、「多数のポイントがある場合、完全に正規分布でも外れ値が返される」と言うことになります。[正規分布からサンプリングした場合、ポイントを拒否できない外れ値を有効に特定する方法を考えてみてください。]
Glen_b

1
よく繰り返される逸話は、この経験則を思いついたジョン・テューキーがなぜ1.5だったのかと尋ねられたことです。1は少なすぎ、2は多すぎると言いました。私がそれを何らかの形で決定的な口頭の基準として誤読した回数を考えると、それが消えていくのは嬉しいことです。これで、すべてのデータを表示できるコンピューターができました!
ニックコックス

回答:


25

ボックスプロット

Hoaglin、Mosteller and Tukey(2000):Robust and Exploratory Data Analysisについての関連セクションがありますワイリー。ジョン・D・エマーソンとジュディス・ストレニオが書いた第3章「箱ひげ図とバッチ比較」(62ページから):

[...]より小さい、またはより大きいデータ値としての外れ値の定義 はいくぶんarbitrary意的ですが、多くのデータセットの経験は、この定義が特別な注意を必要とする可能性のある値を識別するのに役立つことを示しています。[...]FL32dFFU+32dF

FLとは1番目と3番目の四分位数を示し、は四分位間範囲です(つまり)。FUdFFUFL

さらに、ガウス集団への適用を示しています(63ページ):

平均と分散 の標準ガウス分布を考えます。箱ひげ図で使用されるサンプル値に類似したこの分布の母集団値を探します。対称分布の場合、中央値は平均に等しいため、標準ガウス分布の母集団中央値はです。人口の4分の1は とであるため、人口の4分の1の広がりは、つまり約です。したがって、4番目のスプレッドの倍は (約)です。母集団の外れ値のカットオフは (約0100.67450.67451.34943322.02352±2.698223)、それらには分布のが含まれます。[...]99.3%

そう

[それら]は、カットオフがガウス分布に適用される場合、人口のが外れ値カットオフの外側にあることを示しています。この図は、外れ値のカットオフの配置を判断するための比較の基準を提供します[...]。0.7%

さらに、彼らは書きます

[...]このように、外れ値のカットオフを超えるポイントの数によって、データがガウス分布よりも重く見えるかどうかを判断できます。[...]

これらは、外れ値のカットオフの外側にある値の予想される割合を示すテーブルを提供します( "Total%Out"とラベル付けされています):

表3-2

したがって、これらのカットオフは、どのデータポイントが外れ値であるかどうかについての厳密なルールになることを意図していませんでした。既に述べたように、完全な正規分布でさえ、箱ひげ図で「外れ値」を示すことが予想されます。


外れ値

私の知る限り、一般に受け入れられている外れ値の定義はありません。ホーキンス(1980)の定義が好きです。

外れ値は、異なるメカニズムによって生成された疑いを喚起するほど他の観測から大きく外れた観測です。

理想的には、データポイントが他のデータに属さない理由を理解した後でのみ、データポイントを外れ値として扱う必要があります。単純なルールでは不十分です。外れ値の適切な処理は、Aggarwal(2013)に記載されています。

参照資料

Aggarwal CC(2013):外れ値分析。スプリンガー。
Hawkins D(1980):外れ値の識別。チャップマンとホール。
Hoaglin、Mosteller and Tukey(2000):堅牢で探索的なデータ分析の理解。ワイリー。


7

「外れ値」という言葉は、「誤った、誤解を招きやすい、誤った、または壊れているため、分析から除外する必要があるデータ値」のようなものを意味すると想定されることがよくありますが、それはTukeyが外れ値の使用によって意味したものではありません。外れ値は、データセットの中央値から遠く離れた単なるポイントです。

多くのデータセットで外れ値を予想することについてのあなたのポイントは正しく、重要です。また、このトピックに関する多くの良い質問と回答があります。

非対称データから外れ値を削除する

異常値は問題を引き起こすので、それを特定して削除するのは適切ですか


2

すべての外れ値検出方法と同様に、どの値が本当に外れ値であるかを判断するには注意と思考を使用する必要があります。箱ひげ図はデータの広がりを適切に視覚化するだけであり、真の外れ値は簡単にキャッチできます。


0

正規分布の一部として異常値が得られない場合は、心配する必要があると思います。明らかに、エラーを記録していないことを確認するために確認する必要がありますが、そうでない場合は予想されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.