ボックスプロットに四分位がありません


7

現在、箱ひげ図を作成しています。私は統計学、特に箱ひげ図の分野で新しいです。次の画像を探します。ここに画像の説明を入力してください

y軸でメッセージの数を見つけます。そこにあるものを理解するのに問題があります。プロットはMatlabによって自動的に作成されます。私が知っているように、箱ひげ図には4つの四分位数があるはずです。3つしかありません。おそらく、これは中央値(緑色の線)の値が原因で発生しました。しかし、四分位数がない場合、これが何を意味するのかわかりません。これを説明して詳細を教えてくれる誰かがプロットのどこから読み取れるのですか?


ほとんどの目的では、各整数のビンを備えたヒストグラムまたはドットプロットを使用することをお勧めします。垂直に描画したり、中央値と四分位数を重ね合わせたりしても、何も妨げられません。他のいくつかの制限の中で、この設計は観測値としての12 14 16 18 20の周波数に関する情報を提供しません。
Nick Cox

質問:整数のみがデータに表示されるようです。それはそうですか、そしてそれが理由である場合、それはなぜ起こりますか?
Nick Cox

4つではなく3つの四分位数があります。これらは最大4つのビンを定義します(この場合はより少ない)。
Nick Cox

@NickCox y軸はメッセージの数です。これはカウントデータであり、整数を説明します。
Bernhard

確かに、最初のコメントが示すように、それはわかりますが、なぜ整数だけなのでしょうか。26 20 18 16 14 12 10 8 6 4が表示されています。一部の奇数の整数はボックスで非表示になっている場合があります。それ以外の場合は、パターンのように見えます。
Nick Cox

回答:


18

中央値はおそらく最初の四分位数と同じです。そのため、これらは重複しています。これは、データセットに同一の低い値の割合が多い場合に発生する傾向があります。このパターンを再現する例を次に示します。

dat <- c(1,2,2,2,3,5,6)

median(dat)
## 2
quantile(dat, 0.25)
## 25% 
##  2 

boxplot(dat)

ここに画像の説明を入力してくださいここで は、箱ひげ図の解釈方法に関する基本的な紹介を読むことができます。Nick Coxが以下に指摘するように、「異常値」と呼ばれるものについてのその議論には欠陥があり、無視されるべきです。明確なデータ記録エラーなどの非常に強い理由がない限り、外れ値は削除しないでください。

また、箱ひげ図は、多くのデータセットを表示する優れた方法ではないことにも注意してください。小さなデータセットにはミツバチのプロットを、大きなデータセットにはバイオリンのプロット/カーネル密度のプロットを推奨するというStephan Kolassaの意見に同意します。


4
引用された出典は、名前の外れ値によって個別に示される呼び出しポイントの残念な一般的な慣行に従います。ここで箱ひげ図が示すように、そのようなポイントは、他の強い統計的意味での必ずしも異常値ではありません。これは、どの用語を使用する必要があるかを超えています。CVに関する多くの質問、特に「データサイエンス」からの質問は、そのようなポイントはさらに分析する前に削除する必要があるという考えを示しています。
Nick Cox

1
@NickCoxおかげで、私はこの批判に同意し、リンクする前にそれを理解するべきでした。
mkt-モニカを復活させる

9

ボックスプロットの「ボックス」は、第1四分位から第3四分位まで、つまり25パーセンタイルから75パーセンタイルまで伸びます。視覚的には、25パーセンタイルは約6メッセージ、75パーセンタイルは約8であることを意味します。

さらに、箱ひげ図は、水平線を使用して中央値(つまり、2番目の四分位数、つまり50パーセンタイル)を示します。

もちろん、中央値は四分位数と一致することがあります。したがって、適切な実装では、中央線に異なる色または線種を使用します。今回のケースでは、一番下の水平線が緑色になっています。それは明らかに最初の四分位線上にプロットさています。したがって、これは最初の四分位だけでなく、同時に中央値でもあります。したがって、中央値も約6です。

四分位数と中央値を計算することにより、データからこれを確認できるはずです。


3
(+1)すべてがうまくいきますが、小さい整数の数のボックスプロットが誤って解釈されることがよくあります。人々は結びつきとそれらが何を意味するかについて一生懸命考えることを望まないか望まないことです。
Nick Cox

2
@NickCox:とてもそうです。私は通常、ポイントの数が「小または中」の場合は箱ひげ図に重ねる蜂の巣プロットを、「中または大」の場合はバイオリンプロットを重ねて表示することをお勧めします。
ステファンコラサ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.