Rのボックスプロット:変位値が決定されるときに異常値はカウントされますか?


8

1次元のデータセットがあり、boxplot関数を使用してボックスプロットを作成します。その後、私はいくつかの外れ値を持っていることがわかります。

変位値が決定されるときに異常値はカウントされますか?

どちらの方法が使用されているかが明らかである限り、正しい/間違った方法はありますか、それとも両方が正しいですか?もしそうなら、Rはそれをどのように行うのですか?


6
これは部分的に英語の使用法の問題ですが、箱ひげ図プログラムは異常値を決定しません。ほとんどの場合、それらは考慮すべき点と(一変量)外れ値である可能性がある点を別々にプロットします。
Nick Cox

1
指数分布からの大きなサンプルの場合、サンプルの約が上部のひげを超えて表示される可能性があります。これらを除外すると、実質的に間違った分位数が得られる可能性があります4.8%
Henry

回答:


12

R-すべてのプログラムとは異なり、多くのプログラムと同様-箱ひげ図の描き方に関するTukeyの定義*をほとんど使用しています。

全体元のサンプルを計算するために使用されるヒンジ(ボックス端部が描かれています)。

ヒンジは四分位数に非常によく似ています(これらは、四分位数の通常の定義とは少し異なる上四分位数と下四分位数を計算する特定の方法であると言うことができます。ただし、サンプル四分位数にはさまざまな定義があります。実際、Rは9つの異なる四分位計算を提供し、ヒンジ自体はカウントしません)。

上ヒンジはデータの上半分の中央値にあり(上半分には元のサンプルのデータポイントの中央値が含まれます)、下ヒンジは下半分の中央値にあります(中央値も含まれます)元のサンプルのデータポイントの場合):

ヒンジの計算を示す図

したがって、たとえば6つの観測値の場合、ヒンジは2番目に大きく5番目に大きい観測値です(各半分に3つのポイント)。9つの観測値では、ヒンジは3番目と8番目に大きくなります(各半分に5ポイント、中央値は両方の半分になります)。観測値が11の場合、下部ヒンジは3番目と4番目に大きい観測値の中間にあり、上部ヒンジは8番目と9番目に大きい観測値の中間にあります(各半分に6ポイント)。図は、13個の観測値を持つケースを示しています。

四分位数(/ヒンジ)は外れ値の値にまったく敏感ではなく、四分位の外側にあるという事実にのみ注意することに注意してください。四分位数/ヒンジを変更せずに、ボックスの端の近くに(外れ値がないように)、または四分位数の値を変更せずに、好きなだけ遠くに(すべて遠くに)移動できます。 。したがって、「外れ値」が存在する場合、実際には何もする必要はありません。


*むしろ、そのうちの1つ。Tukeyはいくつかの定義を示しましたが、現在の目的では、ヒンジの計算がどのように機能するかについてのみ心配する必要があります。私が主に言っているのは、「外れ値」のあるバージョンはTukeyがスケマティックプロットと呼んだものですが、2つの異なる種類の「外れ値」マークのあるバージョンを実行しないためです。


このコンテキストでのヒンジの定義は、Tukeyによるフォーススプレッドの使用の説明と同じですか?「ロバストで探索的なデータ分析について」を読むとき、「一部の読者は四分位範囲に精通しているかもしれません。四分位数は4番目とほぼ同じであるため、4番目の広がりに非常に近いものです。」私は、彼がこれまでに2つの違いを説明したその本には見ませんでした。
Tavrock

@Tavrockの 4分の1は、ヒンジと同じ定義です。どちらの用語もTukeyの発明です。したがって、「ヒンジスプレッド」は「フォーススプレッド」と同じです。
Glen_b-モニカを2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.