ヒストグラムは、変数の分布をよく理解します。ただし、ボックスプロットは同じことをしようとしますが、この変数の分布を十分に描写していません。
なぜ人々が箱ひげ図を使うのか分かりません。ヒストグラムはあらゆる点で優れています。両方を使用する理由はありますか?
ボックスプロットが提供する唯一のことは、外れ値です!どの観測が外れ値である可能性があるかがわかります。
ヒストグラムは、変数の分布をよく理解します。ただし、ボックスプロットは同じことをしようとしますが、この変数の分布を十分に描写していません。
なぜ人々が箱ひげ図を使うのか分かりません。ヒストグラムはあらゆる点で優れています。両方を使用する理由はありますか?
ボックスプロットが提供する唯一のことは、外れ値です!どの観測が外れ値である可能性があるかがわかります。
回答:
箱ひげ図がより多くの分布の要約を提供するという事実は、特定の場合に利点とみなすこともできます。時々、分布を比較するとき、全体の形状を気にせず、むしろ、分布が互いに関してどこにあるかを気にします。変位値を並べてプロットすることは、気にする必要のない他の詳細を気にせずにこれを行う便利な方法です。
単変量の場合、箱ひげ図はヒストグラムが提供しない情報を提供します(少なくとも、明示的には提供しません)。つまり、通常、外れ値ではない中央値、25パーセンタイル、75パーセンタイル、最小値/最大値を提供し、外れ値と見なされるポイントを明示的に分離します。これはすべて、ヒストグラムから「目玉」にできます(外れ値の場合は目玉にした方が良い場合があります)。
ただし、はるかに大きな利点は、多くの異なるグループの分布を一度に比較することです。10以上のグループでは、これは横並びのヒストグラムでは面倒な作業ですが、ボックスプロットでは非常に簡単です。
あなたが述べたように、バイオリンのプロット(または豆のプロット)は、より有益な代替手段です。ただし、ボックスプロットよりもわずかに多くの統計的知識が必要です(つまり、統計的でない対象者に提示する場合は、もう少し威圧的かもしれません)。ボックスプロットは、カーネル密度推定量よりもはるかに長いため、人気があります。
ヒストグラムを表示し、中央値がどこにあるかを尋ねると、かなりの時間をかけて計算することができます...そして、近似値のみを取得します。私が箱ひげ図で同じことをすると、すぐにそれが得られます。それがあなたが興味を持っているものであるならば、箱ひげ図は明らかに勝ちます。
箱ひげ図は、単一のサンプルの分布の説明ほど効果的ではないことに同意します。なぜなら、それらはそれをいくつかの点に減らし、それが多くを語らないからです。
ただし、多数のディストリビューションを比較する場合、それぞれの詳細をすべて把握することは、簡単に比較できるよりも多くの情報になる可能性があります。比較する情報の数を減らして情報を減らすことができます。
情報が多いほど、ヒストグラムよりも多くの選択肢があります。たとえば、茎と葉のプロット、またはecdf /分位点プロット。
または、ヒストグラムに情報を追加できます。
(この回答からのプロット)
それらの最初の-マージンに狭い箱ひげ図を追加する-どちらのディスプレイからも利益を得ることができます。
バープロットは、観測の頻度の範囲のみを提供しますが、ボックスプロットは、分布のいくつかのパラメーターがどこにあるか、バープロットではできない例の平均および分散を示すのに適しています。したがって、箱ひげ図は、複数の分布がある場合に効果的な比較ツールとして使用されます。