極端な外れ値を持つボックスプロットを表示する方法は?


17

データの提示に関するガイダンスを使用できます。

この最初のプロットは、サイトカインIL-10の症例対照比較です。y軸を手動で設定して、データの99%を含めました。

IL-10手動Y軸付き

これを手動で設定したのは、ケースグループに極端な異常値があるためです。 外れ値あり

私の共同研究者は、データセットの外れ値の削除をためらっています。私はそれでいいですが、彼らはむしろそうではありません。それは明らかな解決策です。しかし、すべてのデータを保持し、この外れ値を削除しない場合、どのようにこの箱ひげ図を最適に提示できますか?軸を分割しますか?最初のグラフだけを使用して、すべてのデータを含むように作成されていることに注意してください。(このオプションは私にとって不誠実です)。どんなアドバイスも素晴らしいでしょう。


5
両方のプロットを表示しないのはなぜですか?
アレクシス14

回答:


24

このようなデータでは、変換されたスケールで結果を表示する必要が本当にあると思います。それが最初の必須事項であり、ボックスプロットの正確な作成方法よりも重要な問題です。

しかし、極端なポイントが特定されている場合でも、フランク・ハレルに、最小の箱ひげ図よりも有益な何かを促すように促しています。より多くの情報を表示するのに十分なスペースがあります。多くの例の1つである、ハイブリッドボックスと変位値プロットです。データと同様に、2つのグループが比較されています。

ここに画像の説明を入力してください

これら2つのポイントを1つずつ取り上げて、さらに詳しく説明します。

変形スケール

最も単純なケースでは、すべての値が正である可能性があるため、最初に対数目盛を使用してみてください。

正確なゼロがある場合、平方根または立方根のスケールは依然として極端な歪度を改善します。ゼロに対処する方法として、定数が最も一般的に1であるlog(value + constant)に満足している人もいます。

変換されたスケールを使用するボックスプロットの意味は微妙です。

上位四分位+ 1.5 IQRまたは下位四分位-1.5 IQRを超えるすべてのポイントを個別に表示する一般的なTukey規則を使用する場合、おそらくこれらの制限は変換されたスケールで計算する必要があります。つまりない次いで、元のスケール上のこれらの限界を計算する変換と同じ。

代わりに、ウィスカーの端の分位点を選択する少数派の慣習であると思われるものをサポートします。そのいくつかの利点の1つは、分位の変換=変換の分位であり、ほとんどの場合、少なくともグラフィカルな目的に十分に近いことです。(小さな印刷は、隣接する次数統計間の線形補間によって分位が計算されるたびに行われます。)

この分位規則は、クリーブランド(1985)によってかなり目立って提案されました。記録のために、四分位へのボックス、外部八分位へのより薄いボックス(12.5および87.5%ポイント)、およびデータのストリッププロットによる拡張ボックスプロットは、(例)Matthews(1936)およびGrove(1956)によって、地理および気候学で使用されました「分散図」という名前。

ボックスプロット以上

ボックスプロットは1970年頃にテューキーによって再発明され、1977年の本で最も目に見える形で宣伝されました。彼の目的の多くは、非公式の調査でpen(cil)と紙を使用してすばやく描画できるグラフを促進することでした。彼はまた、可能性のある外れ値を識別する方法を提案していました。それは大丈夫でしたが、今ではすべてのコンピューターにアクセスできるようになりました。すべてではないにしても、少なくとも詳細を示すグラフを描くのは簡単です。箱ひげ図の要約の役割は価値がありますが、興味深い場合や重要な場合に備えて、グラフには微細構造も表示できます。(そして、研究者が興味を持たない、または重要でないと考えるものは、読者にとってより印象的かもしれません。)

正確に何が最適かについて丁寧な意見の相違の余地は十分にありますが、私の意見では、むき出しの箱のプロットはかなり売られすぎています。

Stataのユーザーは、このStatalistの投稿で図を描いたプログラムをもっと見つけることができます。他のソフトウェアのユーザーは、優れたものや優れたものを描くことに困難を感じないはずです(そうでない場合は、そのソフトウェアを使用する理由は?)。

クリーブランド、WS1985。データのグラフ化の要素。 カリフォルニア州モントレー:ワズワース。

グローブ、AT1956。ナイジェリアの土壌侵食。Steel、RW and Fisher、CA(Eds) 英国の熱帯の土地に関する地理的エッセイ。 ロンドン:ジョージフィリップ、79-111。

マシューズ、HA1936。いくつかのよく知られているインドの降雨の新しいビュー。 Scottish Geographical Magazine 52:84-97。

Tukey、JW1977。探索的データ分析。マサチューセッツ州レディング:Addison-Wesley。


1
私は、ボックスプロットとECDFのこのような並置を見たことはありません。すごくかっこいい!別のパネルに2つのECDFをオーバーレイすることについてどう思いますか?
フランクハレル14

2
@フランクハレルありがとう。オーバーレイも良いアイデアです。私の作品のいくつかの例については、例えばstata-journal.com/sjpdf.html?articlenum=gr0018をご覧ください。
ニックコックス14

14

ニックの優れた答えから何も奪わないでください。それは、ダニと賛成に値する価値があると思いますが、いくつかの可能性を探りたいと思いました。

データが数桁にわたって大きく歪んでいるため、ログスケールでプロットすると明らかになることがよくあります。元の値に目盛りと目盛りラベルを引き続き使用できることに注意してください。(変換に関するニックのポイントに同意するので、これ以上は説明しません。)

変換以外の別のオプションは、2番目のプロットのようなことをすることですが、プロットされていないすべての値の表示を含めることです。

  ここに画像の説明を入力してください

そうすれば、外れ値を削除するのではなく、異なる値を表示するだけです。

しかし、私はフランクとニックと一緒に、プレーンなボックスプロットよりも有益なディスプレイを使用することを提案しました-ニックの投稿のボックスプロットとクォンタイルプロットの組み合わせは、クォンタイルプロットを軽く(または下に)プロットするかもしれませんが、特に良い概念のようです、ここのように)横ではなく対応するボックス:

  ここに画像の説明を入力してください

あなたがそのようなことをしていないなら(例えば、単なる箱ひげ図で行く)、かなり狭い箱をお勧めします。


3
変位値とボックスプロットを重ね合わせることも魅力的です。ボックスプロットは、分位点プロットを縮小したものであることを強調しますが、ボックスプロットは冗長に見える場合があります。2つのグラフ間の関係を強く強調するには、Parzen、E. 1979などを参照してください。ノンパラメトリック統計データモデリング。 Journal of the American Statistics Association 74:105-121
ニックコックス14

OPのデータセットはありますか?または、グラフをスクレイピング/偽造していますか?
ニックコックス14

2
@Nick基本的に偽物です。私は効果的に極値を手作業で削り(手で、ほんのわずかしかありませんでした)、既知の値(3つの四分位数と最小値)の間、および上の四分位数と最後の間の3つのユニフォームからサンプリングすることにより、上の四分位数より下の値を生成しました上のウィスカーに指数関数を追加してから、極値を追加しました(ちょうど私の箱ひげ図が似ているように)。少なくともそれがアイデアの骨子です。極値は正確ではないため、プロットに印刷された値は例のようになります。
グレン_b-モニカの復活2014

@Glen_b必要に応じて別の質問をすることもできますが、分位点プロットを箱ひげ図にオーバーレイするためにどのような方法を使用しましたか?
タヴロック

@Tavrock私がそれを書いてから2年半ですので、私は推測しています。行うべき明らかなことはpoints、変位値を表示するための呼び出しです(xs=sort(x); points(ppoints(xs),xs)箱ひげ図の後の線に沿って何かのように見えますが、厳密に調べると、点は箱ひげ図の下にあるので、プロットされた後、add = TRUEまたはboxplotであるかもしれません箱ひげ図だったかもしれませんが、その後ポイントの上に箱ひげ図...多分
グレン_b-モニカを復元

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.