箱ひげ図のひげについて


9

箱ひげ図のひげの解釈について質問があります。私は以下を読みました:「長方形の上部と下部で、「ひげ」は0.25と0.75の分位数の間の距離の1.5倍の範囲を示していますが、「距離」が何を意味するのか完全には理解していません。

0.25と0.75の分位数の間、データのパーセンテージは常に同じであるため、確率質量が意味されているとは限りません。それではアイデアは何ですか?

回答:


6

75分位に対応するXの値から25番目に対応するXの値を引いたものが距離です。たとえば、SAT Math Testの場合、620は75番目で、520は25番目の分位数です。したがって、スコアが620を超えると、受験者の75%を上回ります。ひげは最大 1.5 *(620-520)ポイントまで伸びます。


まあ、しかし、ひげは箱の両側で同じ長さになります(これは必ずしもそうではありません)。
Guest555

8
+1、(少し多い)完全な答えは、ひげが最大 1.5 * IQRであることです。その間隔内にこれ以上データがない場合、ひげは短く停止します。さらに、そのポイントを超える追加のデータは、潜在的な外れ値として個別にプロットされます。
ガン-モニカを回復

この少しの追加の説明で、それは今明らかです、たくさんありがとう!
Guest555

私は@gungの優れた点で答えを編集しました。
ディミトリV.マスターフ2013

5
@gungとさらに完全な答えは、ひげは常にデータの既存のポイントにあるということです
ハドリー

4

ボックスプロットは、比較的小さなデータセットを明確に示す方法で要約することを目的としています

  • 中心的な価値。

  • 「典型的な」値の広がり。

  • スプレッドに比べて中心値から大きく外れているため、特別な注意のために選別され、個別に(たとえば名前で)識別される個々の値。これらは「識別値」と呼ばれます。

これは堅牢な方法で行う必要があります。つまり、データ値の一部または比較的小さい部分が任意に変更された場合、箱ひげ図はそれほど異なって見えないはずです。

発明者のJohn Tukeyが採用した解決策は、順序統計(最低から最高にソートされたデータ)を体系的に使用することです。簡単にするためにテューキーが、に焦点を当てた(彼は精神的または鉛筆と紙での計算をした)中央値の数字のバッチの中央値:。(偶数カウントのバッチの場合、Tukeyは2つの中間値の中点を使用しました。)中央値は、基になるデータの最大半分までの変化に耐性があり、堅牢な統計として優れています。したがって:

  • 中心値は、すべてのデータの中央値で推定されます。

  • スプレッドは、すべてのデータが中央値または以上で- - 「下半分」 - 「上半分」の中央値との差を用いて推定されている全てのデータは以下の中央値と等しいです。これらの2つの中央値は、上部および下部の「ヒンジ」または「フォース」と呼ばれます。彼らは最近、四分位数と呼ばれるものに置き換えられる傾向があります(これにはああ、普遍的な定義はありません)。

  • 外れ値をスクリーニングするための目に見えないフェンスは、ヒンジを超えた(中心値から離れた)1.5倍および3倍の広がりで構築されます。

    • 「内側のフェンスに最も近いが内側にある両端の値は「隣接」しています。」
    • 最初のフェンスを超える値は「異常値」と呼ばれます。
    • 2番目のフェンスを超える値は「遠く離れています」。

(60年代のヒッピーのアーゴットを思い出すのに十分古いものは、冗談を理解するでしょう。)

スプレッドはデータ値の違いであるため、これらのフェンスの測定単位は元のデータと同じです。これが問題の「距離」の意味です。

識別するデータ値に関して、Tukeyは書きました

少なくとも極値を特定することができ、さらにいくつかを特定することでうまくいくかもしれません。

中央値、ちょうつがい、および識別された値を表示するためのグラフィカルな方法は、間違いなく「箱ひげ図」(当初は「箱ひげ図」)と呼ぶに値します。 フェンスは通常描かれていません。 テューキーのデザインは、中央に「ウエスト」があるヒンジを表す長方形で構成されています。目立たない線のような「ひげ」が、ヒンジから外側に向かって、最も内側に識別された値(ボックスの上下両方)まで伸びています。通常、これらの最も内側の識別された値は、上記で定義された隣接する値です。

その結果、箱ひげ図のデフォルトの外観は、ひげを最も極端な非外れ値データ値に拡張し、ひげの端とすべての外れ値を構成するデータを(テキストラベルを介して)識別します。たとえば、トゥプンガティト火山は、図の右側に示されている火山の高さデータの隣接値が高く、ウィスカはそこで止まります。トゥプンガティトとより高い火山はすべて個別に識別されます。

これによりデータが忠実に表示されるように、グラフィックの距離はデータ値の違いに比例します。 (直接比例から逸脱すると、Tufte(1983)の用語に「ライファクター」が導入されます。)

EDAからの図

Tukeyの本EDA(p。41)のこれら2つの箱ひげ図は、コンポーネントを示しています。注目に値するのは、左側に米国のデータセットの上限と下限で範囲外でない値があり、右側に火山の高さの範囲外にない低い値が1つあることを確認したことです。これは、本に浸透しているルール判断の相互作用を例示しています。

(フェンスの位置を推定できるので、これらの識別されたデータは異常ではないことがわかります。たとえば、州の高さのヒンジは11,000と1,000に近く、約10,000の広がりを与えます。1.5と3を掛けると、距離になりますしたがって、非表示の上部フェンスは11,000 + 15,000 = 26,000に近くなければならず、下部フェンスは1,000-15,000でゼロ未満になります。遠くのフェンスは11,000 + 30,000 = 41,000および1,000-30,000 =近くになります-29,000。)


参考文献

タフテ、エドワード。 定量的情報の視覚的表示。 チェシャープレス、1983。

ジョン、テューキー。第2章、EDA Addison-Wesley、1977。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.