このようなデータでは、変換されたスケールで結果を表示する必要が本当にあると思います。それが最初の必須事項であり、ボックスプロットの正確な作成方法よりも重要な問題です。
しかし、極端なポイントが特定されている場合でも、フランク・ハレルに、最小の箱ひげ図よりも有益な何かを促すように促しています。より多くの情報を表示するのに十分なスペースがあります。多くの例の1つである、ハイブリッドボックスと変位値プロットです。データと同様に、2つのグループが比較されています。
これら2つのポイントを1つずつ取り上げて、さらに詳しく説明します。
変形スケール
最も単純なケースでは、すべての値が正である可能性があるため、最初に対数目盛を使用してみてください。
正確なゼロがある場合、平方根または立方根のスケールは依然として極端な歪度を改善します。ゼロに対処する方法として、定数が最も一般的に1であるlog(value + constant)に満足している人もいます。
変換されたスケールを使用するボックスプロットの意味は微妙です。
上位四分位+ 1.5 IQRまたは下位四分位-1.5 IQRを超えるすべてのポイントを個別に表示する一般的なTukey規則を使用する場合、おそらくこれらの制限は変換されたスケールで計算する必要があります。つまりない次いで、元のスケール上のこれらの限界を計算する変換と同じ。
代わりに、ウィスカーの端の分位点を選択する少数派の慣習であると思われるものをサポートします。そのいくつかの利点の1つは、分位の変換=変換の分位であり、ほとんどの場合、少なくともグラフィカルな目的に十分に近いことです。(小さな印刷は、隣接する次数統計間の線形補間によって分位が計算されるたびに行われます。)
この分位規則は、クリーブランド(1985)によってかなり目立って提案されました。記録のために、四分位へのボックス、外部八分位へのより薄いボックス(12.5および87.5%ポイント)、およびデータのストリッププロットによる拡張ボックスプロットは、(例)Matthews(1936)およびGrove(1956)によって、地理および気候学で使用されました「分散図」という名前。
ボックスプロット以上
ボックスプロットは1970年頃にテューキーによって再発明され、1977年の本で最も目に見える形で宣伝されました。彼の目的の多くは、非公式の調査でpen(cil)と紙を使用してすばやく描画できるグラフを促進することでした。彼はまた、可能性のある外れ値を識別する方法を提案していました。それは大丈夫でしたが、今ではすべてのコンピューターにアクセスできるようになりました。すべてではないにしても、少なくとも詳細を示すグラフを描くのは簡単です。箱ひげ図の要約の役割は価値がありますが、興味深い場合や重要な場合に備えて、グラフには微細構造も表示できます。(そして、研究者が興味を持たない、または重要でないと考えるものは、読者にとってより印象的かもしれません。)
正確に何が最適かについて丁寧な意見の相違の余地は十分にありますが、私の意見では、むき出しの箱のプロットはかなり売られすぎています。
Stataのユーザーは、このStatalistの投稿で図を描いたプログラムをもっと見つけることができます。他のソフトウェアのユーザーは、優れたものや優れたものを描くことに困難を感じないはずです(そうでない場合は、そのソフトウェアを使用する理由は?)。
クリーブランド、WS1985。データのグラフ化の要素。 カリフォルニア州モントレー:ワズワース。
グローブ、AT1956。ナイジェリアの土壌侵食。Steel、RW and Fisher、CA(Eds)
英国の熱帯の土地に関する地理的エッセイ。 ロンドン:ジョージフィリップ、79-111。
マシューズ、HA1936。いくつかのよく知られているインドの降雨の新しいビュー。 Scottish Geographical Magazine 52:84-97。
Tukey、JW1977。探索的データ分析。マサチューセッツ州レディング:Addison-Wesley。