ヒストグラムが提供しないボックスプロットはどのような情報を提供しますか?


13

ヒストグラムは、変数の分布をよく理解します。ただし、ボックスプロットは同じことをしようとしますが、この変数の分布を十分に描写していません。

なぜ人々が箱ひげ図を使うのか分かりません。ヒストグラムはあらゆる点で優れています。両方を使用する理由はありますか?

ボックスプロットが提供する唯一のことは、外れ値です!どの観測が外れ値である可能性があるかがわかります。


1
ヒストグラムは、分布全体の表現よりもあらゆる点で悪いですか?
アンソニーマーティン

2
必要に応じて、ボックスプロットでは、ヒストグラムでは得られない正確な値(中央値、P75など)を得ることができます。表示される情報は少なくなりますが、より総合的です。私のポイントは、ヒストグラムでさえ、分布全体と比較して単純化され、情報の無駄であるということです。しかし、使いやすくすることができます
アンソニーマーティン

2
ヒストグラムの有用性に関する反対の視点は、stats.stackexchange.com / a / 51753の非常に支持された投稿(「ヒストグラム」のサイトを検索することで見つけることができます)で、はっきりと表現され、よく説明されています。
whuber

3
興味深い考えですが、ビンサイズを大きくすると、ヒストグラムはボックスプロットのような図になりますが、カットポイントの選択に対する不幸な依存性は維持されます。私見、箱ひげ図の真のメリットは、多変量データの探索的分析のためにテューキーのN文字の要約の使用を研究し、彼が当時鉛筆と紙で計算していたことを思い出すことによって最もよく評価できます。「さまよえるスケマティックトレース」のような視覚化では、ヒストグラムやバイオリンプロットなどの条件付き応答の他の単変量の要約は、単に機能しません。
whuber

1
ヒストグラムの2つの失敗(imo)は、サンプルが少ない場合、またはボックスのサイズが間違っている場合に発生します。優れた箱ひげ図の弱点(と言うと、JMPのばらつきを考えています)は、マルチモダリティであり、詳細です。箱ひげ図が輝く場所の1つは、サンプルが少ない場合です。また、さまざまなレベルで相互作用する変数が多数ある場合、つまり、JMPの変動プロットが好きです。
EngrStudent-モニカの復帰

回答:


16

箱ひげ図がより多くの分布の要約を提供するという事実は、特定の場合に利点とみなすこともできます。時々、分布を比較するとき、全体の形状を気にせず、むしろ、分布が互いに関してどこにあるかを気にします。変位値を並べてプロットすることは、気にする必要のない他の詳細を気にせずにこれを行う便利な方法です。


1
これが最良の答えです。箱ひげ図は、ヒストグラムよりも分布を比較するのに適しています!
kjetil bハルヴォルセン

14

単変量の場合、箱ひげ図はヒストグラムが提供しない情報を提供します(少なくとも、明示的には提供しません)。つまり、通常、外れ値ではない中央値、25パーセンタイル、75パーセンタイル、最小値/最大値を提供し、外れ値と見なされるポイントを明示的に分離します。これはすべて、ヒストグラムから「目玉」にできます(外れ値の場合は目玉にした方が良い場合があります)。

ただし、はるかに大きな利点は、多くの異なるグループの分布を一度に比較することです。10以上のグループでは、これは横並びのヒストグラムでは面倒な作業ですが、ボックスプロットでは非常に簡単です。

あなたが述べたように、バイオリンのプロット(または豆のプロット)は、より有益な代替手段です。ただし、ボックスプロットよりもわずかに多くの統計的知識が必要です(つまり、統計的でない対象者に提示する場合は、もう少し威圧的かもしれません)。ボックスプロットは、カーネル密度推定量よりもはるかに長いため、人気があります。


3
+1。ただし、ボックスプロットは平均ではなく平均を提供します。
グリーンパーカー

3
誰もが正しいことができます。通常プロットされるボックスプロットは中央値を示します(これは否定されましたが、例を見て覚えていません)。ただし、一部の実装では、手段も表示できます。それはしばしば良い考えです。
ニックコックス

それを指摘してくれてありがとう。私はそれが通常は平均であると(誤って)考え続けます。これは極端な場合に非常に奇妙なプロットにつながる可能性があります。
クリフAB

1
これに合わせて、ボックスプロットとヒストグラムの横並び比較の値を示す画像があればいいと
思い

7
  1. ヒストグラムを表示し、中央値がどこにあるかを尋ねると、かなりの時間をかけて計算することができます...そして、近似値のみを取得します。私が箱ひげ図で同じことをすると、すぐにそれが得られます。それがあなたが興味を持っているものであるならば、箱ひげ図は明らかに勝ちます。

  2. 箱ひげ図は、単一のサンプルの分布の説明ほど効果的ではないことに同意します。なぜなら、それらはそれをいくつかの点に減らし、それが多くを語らないからです。

    ただし、多数のディストリビューションを比較する場合、それぞれの詳細をすべて把握することは、簡単に比較できるよりも多くの情報になる可能性があります。比較する情報の数を減らして情報を減らすことができます。

  3. 情報が多いほど、ヒストグラムよりも多くの選択肢があります。たとえば、茎と葉のプロット、またはecdf /分位点プロット。

    または、ヒストグラムに情報を追加できます。

限界ボックスプロット付きのヒストグラム ジッター付きヒストグラムrugplot ストリップチャート付きヒストグラム

この回答からのプロット)

それらの最初の-マージンに狭い箱ひげ図を追加する-どちらのディスプレイからも利益を得ることができます。


1

バープロットは、観測の頻度の範囲のみを提供しますが、ボックスプロットは、分布のいくつかのパラメーターがどこにあるか、バープロットではできない例の平均および分散を示すのに適しています。したがって、箱ひげ図は、複数の分布がある場合に効果的な比較ツールとして使用されます。


箱ひげ図が平均値を表示することはまれであり(ほとんどの場合、中央値を使用します)、分散を直接表すことはありません。また、これらの数量は通常、「分布のパラメーター」とは見なされないことに注意してください。これらは、データのバッチの記述統計です。
whuber

正確に言うと、あまり計算を行わずに分布を記述するための素晴らしいツールです。また、中央値がより多く表示され、多くの場合、両方の測定値が一致するため、ボックスプロットは平均値を近似するための優れたツールです。
Shiv_90

あなたのコメントはデータ基本的な分布と交絡させ続けているようです。平均がデータのバッチの中央値に等しいことは非常にまれです。さらに、箱ひげ図の優れた最も一般的な用途の1つは、非対称性を識別することです。これは通常、平均と中央値の重要な違いを意味します。箱ひげ図の元の概念の背後にある基本原則の1つは、箱ひげ図が堅牢な探索ツールであることです。これは、平均や分散などの敏感な統計に基づいていない方が良いことを意味します。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.