1次元のデータセットがあり、boxplot
関数を使用してボックスプロットを作成します。その後、私はいくつかの外れ値を持っていることがわかります。
変位値が決定されるときに異常値はカウントされますか?
どちらの方法が使用されているかが明らかである限り、正しい/間違った方法はありますか、それとも両方が正しいですか?もしそうなら、Rはそれをどのように行うのですか?
1次元のデータセットがあり、boxplot
関数を使用してボックスプロットを作成します。その後、私はいくつかの外れ値を持っていることがわかります。
変位値が決定されるときに異常値はカウントされますか?
どちらの方法が使用されているかが明らかである限り、正しい/間違った方法はありますか、それとも両方が正しいですか?もしそうなら、Rはそれをどのように行うのですか?
回答:
R-すべてのプログラムとは異なり、多くのプログラムと同様-箱ひげ図の描き方に関するTukeyの定義*をほとんど使用しています。
全体元のサンプルを計算するために使用されるヒンジ(ボックス端部が描かれています)。
ヒンジは四分位数に非常によく似ています(これらは、四分位数の通常の定義とは少し異なる上四分位数と下四分位数を計算する特定の方法であると言うことができます。ただし、サンプル四分位数にはさまざまな定義があります。実際、Rは9つの異なる四分位計算を提供し、ヒンジ自体はカウントしません)。
上ヒンジはデータの上半分の中央値にあり(上半分には元のサンプルのデータポイントの中央値が含まれます)、下ヒンジは下半分の中央値にあります(中央値も含まれます)元のサンプルのデータポイントの場合):
したがって、たとえば6つの観測値の場合、ヒンジは2番目に大きく5番目に大きい観測値です(各半分に3つのポイント)。9つの観測値では、ヒンジは3番目と8番目に大きくなります(各半分に5ポイント、中央値は両方の半分になります)。観測値が11の場合、下部ヒンジは3番目と4番目に大きい観測値の中間にあり、上部ヒンジは8番目と9番目に大きい観測値の中間にあります(各半分に6ポイント)。図は、13個の観測値を持つケースを示しています。
四分位数(/ヒンジ)は外れ値の値にまったく敏感ではなく、四分位の外側にあるという事実にのみ注意することに注意してください。四分位数/ヒンジを変更せずに、ボックスの端の近くに(外れ値がないように)、または四分位数の値を変更せずに、好きなだけ遠くに(すべて遠くに)移動できます。 。したがって、「外れ値」が存在する場合、実際には何もする必要はありません。
*むしろ、そのうちの1つ。Tukeyはいくつかの定義を示しましたが、現在の目的では、ヒンジの計算がどのように機能するかについてのみ心配する必要があります。私が主に言っているのは、「外れ値」のあるバージョンはTukeyがスケマティックプロットと呼んだものですが、2つの異なる種類の「外れ値」マークのあるバージョンを実行しないためです。