箱ひげ図の歴史はどのようなもので、「箱ひげ」のデザインはどのように進化しましたか?


19

多くの情報源は、に古典的な「ボックスプロット」デザインとデートジョン・テューキーデザインはで、それ以来、比較的静的に宿泊しているようだと、1970年の彼の「概略的なプロット」エドワード・タフトのカットダウンボックスプロットのバージョン間、上のキャッチに失敗しますバイオリンプロット -ボックスプロットのより有益なバリエーション-はあまり人気がありません。10パーセンタイルと90パーセンタイルまで伸びるというクリーブランドの提案には、支持者がいます。Cox(2009)を参照してくださいが、これは標準ではありません。

Hadley WickhamとLisa Stryjewskiは、箱ひげ図の歴史に関する未発表の論文を書きました、箱ひげ図の歴史的な先駆者をカバーしていないようです。

それでは、現在のユビキタスな「箱とひげ」のプロットはどのようにして生まれたのでしょうか?どのようなデータの視覚化から発展し、それらの初期の設計には大きな利点がありましたか?また、なぜそれらがTukeyのスキームによる使用で非常に包括的に食われているように見えるのですか?図解された答えはボーナスになりますが、ウィッカムやストリエフスキーよりも歴史的に深く掘り下げた参考文献に向けられると便利です。

参照資料

  • ニュージャージー州コックス(2009)。Speaking Stata:ボックスプロットの作成と変更。Stata Journal、9(3)、478。
  • Wickham、H.およびStryjewski、L.(2011)。40年の箱ひげ図。http://vita.had.co.nz/papers/boxplots.pdf

1
ここでの前駆体の数の関連するいくつかの議論:stats.stackexchange.com/questions/125521/... ...ターキーはメアリー・スピアーズの作品を知っていたが、それは彼が以前のもののいずれかを見ていない可能性が可能です
Glen_b -Reinstateモニカ

@Glen_bに感謝します。それが実際に私が読んだ議論であり、この質問に影響を与えましたが、質問するのに4年かかり、議論を追跡できませんでした。(残念ながら、サイト検索にコメントが表示されないため、適切なQ&Aに回答することが役立つ理由です。)
Silverfish

1
site:stats.stackexchange.comsetでgoogle検索を使用して、コメントの内容を追跡します。最初にヒットするのに十分な詳細(ボックスプロットに関連するニックと私との議論であり、シュミットに言及したこと)を思い出すことができました。
Glen_b-モニカを

1
Q11.5IQRQ3+1.5IQR3IQRn.2.25IQR

1
github.com/hadley/boxplots-paperには、ジャーナルからの匿名のレビュアーのレポート(?
ニックコックス

回答:


18

最高経営責任者の概要

歴史は多くの人が思っているよりもずっと長く複雑です。

エグゼクティブサマリー

Tukeyがボックスプロットと呼んだものの歴史は、現在ドットプロットまたはストリッププロット(他の何十もの名前)と呼ばれているものの歴史と経験的な分位数関数の表現に絡み合っています。

広く現在の形式の箱ひげ図は、John Wilder Tukey(1970、1972、1977)の研究を通じて最もよく知られています。

しかし、中央値と四分位数を基本的な要約として表示するという考えは、すべての値を表示するドットで常にではありませんが、しばしば、少なくとも地理学者パーシー・ロバート・クロウ(1933)によって導入された分散図(多くの異形名)にまで遡ります。これらは地理学者の定番であり、1930年代後半以降の多くの教科書や研究論文で使用されていました。

Bibby(1986、pp.56、59)は、アーサー・リヨン・ボウリー(後のアーサーir)が1897年ごろの講義で教えた同様のアイデアと、彼の推薦(Bowley、1910、p.62; 1952、p.73)に以前の言及を与えました。 )グラフの概要の基準として、最小値と最大値、10、25、50、75、90%のポイントを使用します。

極値と四分位数を示す範囲バーは、多くの場合、メアリーエレノアスピア(1952)に起因しますが、私の読書では、ケネスW.ヘマー(1948)を引用する人は少なくなっています。1950年頃のアメリカ統計学者の統計グラフィックスに関するHaemerの記事は独創的で、批判的な一口があり、読み直す価値があります。(多くの読者はjstor.orgを介してそれらにアクセスできます。)対照的に、Spearの本(Spear 1969はリハッシュ)は、革新的または学術的というよりは、アクセス可能で賢明ですが、意図的に導入されました。

ひげが選択されたパーセンタイルに及ぶボックスプロットのバリエーションは、多くの人が考えているよりも一般的です。繰り返しますが、1930年代以降、地理学者は同等のプロットを使用しました。

Tukeyのボックスプロットの最も独創的なものは、まず、個別にプロットされ、詳細な検討に値するものとして識別されるテールのポイントを識別するための基準であり、多くの場合、変数が変換されたスケールで分析されるべきであることを示すフラグです。彼の1.5 IQRの経験則は、多くの実験を経て初めて現れました。いくつかの手で、Tukeyの意図ではなかったデータポイントを削除するためのハードルールに変化しました。パンチの効いた、覚えやすい名前-ボックスプロット-は、これらのアイデアのより広範な影響を保証するのに害はありませんでした。対照的に、分散図はむしろ退屈で退屈な用語です。

ここでの参照のかなり長いリストは、おそらく外観に反しており、網羅的であることを意図していません。目的は、ボックスプロットのいくつかの前駆体および代替物のドキュメントを提供することです。特定の参照は、詳細なクエリやフィールドに近い場合に役立つ場合があります。逆に、他の分野の慣行について学ぶことは有益です。地図作成者のグラフィカルな(単なる地図作成ではない)専門知識は、しばしば過小評価されてきました。

詳細

ハイブリッドドットボックスプロットは、Crowe(1933、1936)、Matthews(1936)、Hogg(1948)、Monkhouse and Wilkinson(1952)、Farmer(1956)、Gregory(1963)、Hammond and McCullagh(1974)、Lewisによって使用されました(1975)、Matthews(1981)、Wilkinson(1992、2005)、Ellison(1993、2001)、Wild and Seber(2000)、Quinn and Keough(2002)、Young et al。(2006)およびHendry and Nielsen(2007)およびその他多数。Miller(1953、1964)も参照してください。

四分位数の非常に多くのIQR内のデータポイントではなく、特定のパーセンタイルにウィスカーを描画することは、クリーブランド(1985)によって強調されましたが、 7番目のオクタイル、範囲および四分位範囲。Dury(1963)、Johnson(1975)、Harris(1999)、Myatt(2007)、Myatt and Johnson(2009、2011)およびDavino et al。(2014)最小値、四分位数、中央値、最大値と同様に平均を示しました。Schmid(1954)は、中央値、四分位数、5%および95%のポイントを含む要約グラフを示しました。ベントレー(1985年、1988年)、デイビス(2002年)、スペンス(2007年、2014年)、モトゥルスキー(2010年、2014年、2018年)は、ウィスカを5および95%ポイントにプロットしました。Morgan and Henrion(1990、pp.221、241)、Spence(2001、p.36)、Gotelli and Ellison(2004、2013、pp.72、110、213、416)10%および90%ポイントにひげをプロットしました。Harris(1999)は、5および95%と10および90%の両方のポイントの例を示しました。Altman(1991、pp.34、63)およびGreenacre(2016)は、2.5%および97.5%の点にウィスカをプロットしました。ライマンら。(2008、pp.46-47)5%と95%および2%と98%の点にひげをプロットしました。

Parzen(1979a、1979b、1982)は、ボックスとクォンタイルプロットをクォンタイルボックスプロットとしてハイブリッド化しました。(例)Shera(1991)、Militkýand Meloun(1993)、Meloun andMilitký(1994)も参照してください。ただし、Keen(2010)の変位値ボックスプロットは、極限まで伸びたひげを含むボックスプロットにすぎないことに注意してください。対照的に、JMPの分位ボックスプロットは、明らかに0.5%、2.5%、10%、90%、97.5%、99.5%のマークが付いたボックスプロットです。(2014、pp.143-4)。

分位ボックスプロットのバリアントに関する注意事項を次に示します。

pp,1pp,1p

p,1p

私が見た文献からは、これらのスレッドのどれも-クォンタイルボックスプロットまたはそれ以降のバリアント(A)(B)(C)-お互いを引用していないようです。

!!! 2018年10月3日のように、次の編集でいくつかの参照の詳細を提供する必要があります。

アルトマン、DG1991。 医学研究の実践統計。 ロンドン:チャップマンとホール。

Bentley、JL1985。真珠のプログラミング:選択。 ACM 28の通信:1121-1127。

ベントレー、JL1988。 プログラミングパールの追加:コーダーの告白。 マサチューセッツ州レディング:Addison-Wesley。

Bibby、J。1986 。教育統計の歴史に向けたノート。 エディンバラ:ジョン・ビビー(書籍)。

ボーリー、AL1910。統計の基本 マニュアル。 ロンドン:マクドナルドとエヴァンス。(第7版1952年)

クリーブランド、WS1985。データのグラフ化の要素。 カリフォルニア州モントレー:ワズワース。

Crowe、PR1933。降雨確率の分析:グラフィカルな方法とその欧州データへの応用。 Scottish Geographical Magazine 49:73-91。

クロウ、PR1936。西部平原の降雨状況。 地理的レビュー 26:463-484。

Davis、JC2002。 地質学における統計とデータ分析。 ニューヨーク:ジョン・ワイリー。

ディキンソン、GC1963。 統計マッピングと統計のプレゼンテーション。 ロンドン:エドワードアーノルド。(1973年第2版)

デュリー、GH1963。 イーストミッドランドとピーク。 ロンドン:トーマス・ネルソン。

ファーマー、BH1956。セイロンの乾燥地帯の降雨と水供給。Steel、RW and CA Fisher(eds) Geographical Essays on British Tropical Lands。 ロンドン:ジョージフィリップ、227-268。

グレゴリー、S。1963。統計的手法と地理学者。 ロンドン:ロングマンズ。(後の1968年、1973年、1978年、出版者は後にロングマン)

グローブ、AT1956。ナイジェリアの土壌侵食。Steel、RW and CA Fisher(eds) Geographical Essays on British Tropical Lands。 ロンドン:ジョージフィリップ、79-111。

Haemer、KW1948。範囲棒グラフ。 アメリカ統計学者 2(2):23。

ヘンドリー、DF、B。ニールセン。2007. 計量経済モデリング:尤度アプローチ。 ニュージャージー州プリンストン:プリンストン大学出版局。

Hogg、WH1948。降雨分散図:それらの長所と短所の議論。 地理 33:31-37。

イブレック、H.、MGモーガン。1987.技術に詳しくない人々への不確かな量のグラフィカルなコミュニケーション。 リスク分析 7:519-529。

ジョンソン、BLC1975。 バングラデシュ。ロンドン:ハイネマン教育。

Keen、KJ2010。 フロリダ州のR. Boca Raton による統計とデータ分析のためのグラフィックス:CRC Press。(2018年第2版)

ルイス、CR1975。都市の地位の変化の分析:ミッドウェールズおよびウェールズ中部国境地帯の事例研究。 Institute of British Geographers 64:49-65のトランザクション。

マルティネス、WL、ARマルティネス、JLソルカ。2011. MATLABによる探索的データ分析。 ボカラトン、フロリダ州:CRCプレス。

マシューズ、HA1936。いくつかのよく知られているインドの降雨の新しいビュー。 Scottish Geographical Magazine 52:84-97。

マシューズ、JA1981 。地理学への定量的および統計的アプローチ:実用マニュアル。 オックスフォード:ペルガモン。

Meloun、M。およびJ.Militký。1994.分析ケモメトリックスにおけるコンピューター支援データ処理。I.単変量データの探索的分析。 化学論文 48:151-157。

Militký、J。およびM. Meloun。1993.単変量の探索的データ分析のためのグラフィカルな支援。 Analytica Chimica Acta 277:215-221。

ミラー、AA1953。 地球の皮。 ロンドン:メシューエン。(1964年第2版)

モンクハウス、FJ、HRウィルキンソン。1952. 地図と図表:それらの編集と構成。 ロンドン:メシューエン。(後期版1963、1971)

モーガン、MG、M。ヘンリオン。1990. 不確実性:定量的リスクおよびポリシー分析における不確実性への対処ガイド。 ケンブリッジ:ケンブリッジ大学出版局。

Myatt、GJ2007。データの意味を理解する :探索的データ分析とデータマイニングの実践ガイド。 ニュージャージー州ホーボーケン:ジョン・ワイリー。

Myatt、GJ and Johnson、WP2009。データの意味を理解する II:データの視覚化、高度なデータマイニング手法、およびアプリケーションの実践ガイド。 ニュージャージー州ホーボーケン:ジョン・ワイリー。

Myatt、GJ、Johnson、WP2011。データの意味を理解する III:インタラクティブなデータ可視化設計の実践ガイド ニュージャージー州ホーボーケン:ジョン・ワイリー。

オタウェイ、B。1973.分散図:炭素14日付の表示への新しいアプローチ。 考古学 15:5-12。

パーゼン、E。1979a。ノンパラメトリック統計データモデリング。 Journal、American Statistical Association 74:105-121。

パーゼン、E。1979b。ロバスト推定に関する密度分位数関数の観点。Launerでは、RLおよびGN Wilkinson(eds)Robustness in Statistics。 ニューヨーク:Academic Press、237-258。

Parzen、E. 1982.分位および密度分位関数を使用したデータモデリング。Tiago de Oliveira、J.およびEpstein、B.(編) 統計における最近の進歩。ロンドン:Academic Press、23-52。

クイン、GP、MJキーオ。2002. 生物学者向けの実験計画とデータ分析。 ケンブリッジ:ケンブリッジ大学出版局。

Reimann、C.、P。Filzmoser、RG GarrettおよびR. Dutter。2008. 統計データ分析の説明:環境統計をR. チチェスターと応用:ジョンワイリー。

Sall、J.、A。Lehman、M。StephensおよびL. Creighton。2014. JMP Start Statistics:JMPを使用した統計とデータ分析のガイド。 ノースカロライナ州キャリー:SAS Institute。

Shera、DM1991。データ表示を強化するための変位値プロットの使用。 計算科学と統計 23:50-53。

スピア、ME1952。グラフ統計。 ニューヨーク:マグロウヒル。

スピア、ME1969。実用的なチャート作成テクニック。 ニューヨーク:マグロウヒル。

Tukey、JW1970。
探索的データ分析。限定版。Volume I. レディング、MA:Addison-Wesley。

Tukey、JW1972。いくつかのグラフィックおよびセミグラフィックディスプレイ。TAのBancroftとSAのBrown(eds) では、George W. Snedecorの名誉に関する統計論文。 アイメス、アイオワ:アイオワ州立大学出版局、293-316。(http://www.edwardtufte.com/tufte/tukeyからもアクセス可能)

Tukey、JW1977。 探索的データ分析。 マサチューセッツ州レディング:Addison-Wesley。

Wild、CJ、GAF Seber。2000. 偶然の出会い:データ分析と推論の最初のコース。 ニューヨーク:ジョン・ワイリー。


後で追加するボックスパーセンタイルプロット、マウンテンプロット、その他のハイブリッドフォームには他の資料があります。
ニックコックス

ニックに感謝します-選択肢とハイブリッドについての追加を楽しみにしています。「箱ひげ図」と「友人」がデータ視覚化の「家族」を形成すると言うのはおそらく正しいと思いますが、その家族は何と呼ばれるべきかわかりませんが、
Silverfish

ありがとう!中央値と四分位数を示す線または他のマーカーの所有がボックスを定義する場合、テューキーがそれらに名前を付ける前にボックスプロットがあり、私は彼がそれ以外のことを主張したことはないと確信しています。しかし、教科書や他の場所にある多くのミニチュアの歴史は、その点を強調しているようです。主に、それはレミングが集団自殺として崖から飛び降りるという物語のような証拠なしに繰り返された単なるミームです。ボックスプロットの代替の多くがそうであっても、フィールドには含めて広く開いている、あらゆる意味でのボックスを表示しない任意の単変量分布のグラフィカルな表現を。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.