Box and Whiskerプロットの外れ値の標準定義は、範囲外側の点です。ここで、およびは最初の四分位数、データの3番目の四分位数です。 I Q R = Q 3 − Q 1 Q 1 Q 3
この定義の根拠は何ですか?多数のポイントがある場合、完全に正規分布でも外れ値が返されます。
たとえば、次のシーケンスで開始するとします。
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
このシーケンスにより、4000ポイントのデータのパーセンタイルランキングが作成されます。
qnorm
このシリーズの正規性をテストすると、次の結果が得られます。
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
結果は予想どおりです。正規分布の正規性は正規です。を作成すると、qqnorm(qnorm(xseq))
(予想どおり)データの直線が作成されます。
同じデータの箱ひげ図が作成された場合boxplot(qnorm(xseq))
、結果が生成されます。
箱ひげ図とは異なりshapiro.test
、ad.test
または qqnorm
識別いくつかの外れ値としてのポイントをサンプルサイズが十分に大きい場合(この例のように)。