ボックスプロットのいくつかの代替手段は何ですか?


20

ユーザーが選択したポリゴンの人口調査データを表示し、さまざまなパラメーターの分布をグラフィカルに表示したい(パラメーターごとに1つのグラフ)Webサイトの作成に取り組んでいます。

通常、データには次のプロパティがあります。

  1. サンプルサイズは大きくなる傾向があります(約10,000個のデータポイントなど)
  2. 値の範囲は大きくなる傾向があります(たとえば、最小人口は100未満、最大人口は500,000のようになります)
  3. 通常、q1は最小値(200など)に近く、q2とq3は10,000以内です。
  4. 正規分布のようには見えません

私は統計学者ではないので、私の説明は正確には明確ではないかもしれません。

この分布をグラフで表示したいと思います。グラフは、市民(必要に応じて、素人)に表示されます。

ヒストグラムを使用することをお勧めしますが、値の範囲が広いため不可能です。そのため、ビンを作成するのは本当に簡単ではありません。

統計についてほとんど知らないことから、箱ひげ図はこの種のデータを表示するためによく使用されますが、素人にとっては箱ひげ図の解読は容易ではないと感じています。

このデータをわかりやすく表示するためのオプションは何ですか?


正確に何を表示していますか?1つのデータポイントがどのようなデータを表しているのかはわかりません。
mpiktas

1
カーネル密度プロットはどうですか?statmethods.net/graphs/density.html
ロマンルシュトリック

@mpiktas:私のデータは村の人口調査データです。私のウェブサイトは、ユーザーが地図上のエリアを選択できるようにし、そのエリア内のすべての村を見つけます。村の人口調査データは、その村の男性人口、女性人口、平均世帯収入などのさまざまな値で構成されています。ユーザーが選択した地域に属するすべての村の特定の値(例:総人口)のデータ分布を表示したいと考えています。
Devdatta Tengshe

回答:


13

箱ひげ図はそれほど複雑ではありません。結局のところ、3つの四分位数、および範囲を定義する最小値と最大値を計算するだけです。ウィスカーを描きたいときに微妙さが生じ、さまざまな方法が提案されています。たとえば、Tukeyボックスプロットでは、1番目または3番目の四分位からの四分位の1.5倍の値は外れ値と見なされ、単純なポイントとして表示されます。Kristin Potterによる概要については統計情報の提示方法:ボックスプロットも参照してください。Rのソフトウェアは、わずかに異なるルールを実装していますが、参照(それを勉強したい場合は、ソースコードが利用可能であるboxplot()boxplot.stats()関数)。ただし、非常に歪んだ分布から外れ値を特定することに関心がある場合はあまり役に立ちません(ただし、Hubert and Vandervieren、CSDA 2008 52(12)による、歪んだ分布の調整ボックスプロットを参照してください)。

オンラインの視覚化に関する限り、インタラクティブなWebディスプレイ用のプラグインなしのjsツールボックスであるProtovisをご覧になることをお勧めします。例のページには、非常に数行で、それを達成することができるものの非常にイラストを持っています。


3
私は生物学的研究に従事しています。箱ひげ図を実際に把握できない同僚(つまり、博士号を持つ人)を知っています。私はそれらを一般の聴衆をターゲットにするために使用しません。
ニコ

1
@nicoそれは公正な点です。しかし、これは、効率的なグラフィカルな要約を使用しない理由ではありません。箱ひげ図が実際に行うことの概略図は、読者に役立つかもしれません。
CHL

1
ターゲットオーディエンスが何であり、サイトの目的が何であるかによって異なります。箱ひげ図を説明することは間違いなく助けになりますが、それでも、一部の人々は配布の概念に苦労しています。
ニコ

@nicoはい、同意します。boxplotは、視覚化動物園のツアーでは言及されていませんが、これらは大規模で複雑なデータセット用ですが、単純に気に入っており、実験科学ではあまり使用されていないのが残念です。生データの重ね合わせは、読者が分布を視覚化できるようにする方法です。
chl

1
知っている!少なくとも論文の執筆、プレゼンテーションの作成などに関しては、常に同僚を箱ひげ図に「変換」しようとしますが、そうなる場合もあります。
ニコ


7

ヒストグラムに耐えることをお勧めします。それらは他の選択肢よりはるかに広く理解されています。ログスケールを使用して、広範囲の値に対応します。以下は、Stataで数分で作成した例です値軸に対数目盛付きのヒストグラム
。x軸の数値ラベルは完全に単純または自動ではありませんでしたが、Webサイトを構築しているので、あなたのプログラミングスキルはチャレンジ!


いい視点ね。ここでは、ヒストグラム(または帯域幅を使用した実験による密度プロット)が最適なソリューションです。
suncoolsu

あなたは完全に正しいです、ヒストグラムは分布を示す最も理解された方法です。対数スケールで両方の軸でヒストグラムを作成してみます。
Devdatta Tengshe

2
X軸に対数目盛を使用することのみを推奨しています。ヒストグラムの各バーの網掛け部分は観測数に比例しないため、周波数軸のログスケールは良い考えだとは思いません。
ワンストップ

5

ボックスプロットの代替として、2Dで複数のヒストグラムを並べてプロットするためのmatlab関数があります。上の写真をご覧ください。そしてここに別のものがあります

密度ストリップは、ボックスプロットの別の代替手段です。これは、あるポイントでの暗さがそのポイントでの量の確率密度に比例する、影付きのモノクロストリップです。これは、密度ストリップのR実装です。


1
(+1)それを忘れました。便利かもしれません。
chl

1
シェーディング付きの不確実性表示の未確認のPDFバージョンを見つけました。
chl

@chl:そのリンクは機能しません
kjetil b halvorsen

4

変位値の使用はどうですか?その場合、グラフを提示する必要はなく、表のみを提示する必要があります。村の人口調査では、特定のサイズの村がいくつあるかをユーザーが最も関心を持っていると思うので、たとえば、十分位数を与えると、バツすべての村の特定の数よりも小さいです。十分位バツ=01020100。この表は、x軸にパーセント、y軸に10進でグラフ化できます。


3
友人を引用する:紙に何かを「隠したい」場合は、図ではなくテキストに入れてください。誰も読んでいないことを確認したい場合は、テーブルに置いてください!;)もちろん冗談ですが、ユーザーがクリックするなどのインタラクティブなマップを備えたウェブサイトを持っているなど、テーブルを取得するためにそれらすべてを...残念です!
ニコ

@nico、ええ、でもテーブルはグラフよりもはるかに有益です。例えば、私は悪いグラフよりもテーブルを好みます。この場合、テーブルは依然としてグラフで表すことができますが、外れ値の問題がないため、分位数を提案しました。
mpiktas

それは私が現在行っていることです(グラフに十分位を表示する)が、ターゲットオーディエンスの一部にそれを示した後、グラフが理解しにくいというフィードバックを受け取りました。
Devdatta Tengshe

2

一般集団(つまり、統計に精通していないオーディエンス)をターゲットにしている場合は、統計の正確さよりも目を楽しませる必要があります。

バイオリンプロットはおろか、ボックスプロットも忘れてください(私は個人的には非常に読みにくいと感じています)!平均的なストリートマンに分位数とは何かを尋ねると、ほとんどの場合、広い目で見られる静寂が得られます...

棒グラフ、バブルチャート、またはいくつかの円グラフ(brrrr)を使用する必要があります。エラーバーについては忘れてください(ただし、該当する場合はどこかにSDをテキストに入れます)。

色、形、太い線、3Dを使用します。すべての凡例/軸などを読まなくても、各チャートを一意ですぐに理解しやすくする必要があります。マップを色分けして賢く使用してください。

情報が美しいことは、アイデアを得るための非常に優れたリソースです。たとえば、このチャートを見てください:カフェインとカロリー:誰でもそれを理解でき、目を楽しませてくれます。

そして、もちろん、エドワード・タフテの作品をご覧ください。


注:私は、彼がアプリケーションにバイオリンプロットを使用することを提案していませんでしたが、対数的に間隔を空けたビンを持つヒストグラムを使用しました。バイオリンのプロットは、タイトルの質問に対する回答でした(投稿自体の質問とはかなり異なりました)。
ディクランマースピアル

3
あなたは、おそらくのようになり、多くの目DATAVIZdatavisualization.ch、およびIdeas2evidence、いくつかの名前を付けます。
chl

2

これは分布の形のアイデアを与えるので、私はむしろバイオリンのプロットが好きです。ただし、値の範囲が広いことが問題である場合は、生の値ではなくデータのログをプロットするのが最善かもしれません。その場合、ヒストグラムなどのボックスサイズを選択することになります。ログに言及せず、軸10、100、1000、10000、100000、1000000などをマークします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.