箱ひげ図から分散を推定する


12

私は箱ひげ図を使用して変数の分散をどのように推測するのか疑問に思っていました。少なくとも、2つの変数がそれらの箱ひげ図を観察して同じ分散を持っているかどうかを推測することは可能ですか?


1
最近、同様のトピックに関するこの記事につまずきました。それがあなたにいくらかの洞察を与えることを願っています。
Penguin_Knight 14年

回答:


16

たくさんの厳密な仮定がないわけではありません。答えがイエスであると仮定する場合(質問する代わりに、私はあなたを称賛します)、私はこの(カウンター)例であなたをだますことができるに違いありません:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

よく似ていますよね?まだσ12=1,σ22=1.96

コードから明らかでない場合、人口2は次のとおりです。

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

いいえ、まったく対称であるという理由だけで、この母集団が正常であると推定することはできません。人口のQQプロットは2次のとおりです。

確かに私には普通に見えません。

編集-コメントへの応答:

分散は数値統計です。2つの分布の分散が文字通り等しい場合、それについてあなたが言わなければならないことはほとんどすべてです。2つの分布が厳密に正規である場合、再び、両方とも適合する数学的な定義があります。2つの分布が正確に正規分布または分散が等しくない場合、別のことを言うべきではありません。それらがほぼ等しいまたは正常であると言いたい場合は、おそらくここで指定していない目的に合わせた方法で「おおよそ」を定義する必要があります。分布の違いに対する感度は、通常、あなたのような質問の動機付けとなる分析によって大きく異なります。例えば、tサンプルサイズが等しい場合の後者の違反にはかなり堅牢です)。したがって、母集団2と母集団1(正規分布)を比較するためのテストはお勧めしません。


3
良い例え。ニックはRを使用しています(誰もがRを使用するまで、それを言及することをお勧めします。)
ニックコックス14年

それが科学にとって全体的に良い日になるだろうと考えるのを助けることができません:)
ニックスタウナー14年

私はそれについて長いエッセイを持っていますが、どういうわけかそれは利用可能なスペースに収まりません。
ニックコックス14年

いい答えです。「これらは正常であり、分散は同じです」と言うために報告すべき情報を記述できますか?
ドンベオ14年

応答するように編集されました。
ニックスタウナー14年

10

これはよく回答されています。これらの余分なコメントは、コメントとしては長すぎます(更新:現在は長すぎます)。

厳密には、分布の変動性について箱ひげ図から読み取ることができるのは、四分位範囲(箱の長さまたは高さ)と範囲(表示の両端間の長さまたは高さ)だけです。

近似として、同一と思われるボックスプロットは、非常に類似した分散を持っている可能性がありますが、注意してください。非常に異なるボックス位置またはテール(または両方)のボックスプロットは、同様の分散を持つ可能性はほとんどありませんが、不可能ではありません。しかし、ボックスプロットが同じように見えても、ボックス内の変動性または実際にウィスカー内の変動性について、プレーンまたはバニラボックスプロットの情報は得られません(ボックスと、より近い四分位の1.5 IQR内のデータポイントの間にしばしば示される線) 。NB箱ひげ図にはいくつかのバリエーションがあります。作者は、多くの場合、ソフトウェアで使用される正確なルールを文書化するのが苦手です。

ボックスプロットの人気には価格があります。ボックスプロットは、多くのグループまたは変数(たとえば20または30、場合によってはそれ以上)の全体的な特徴を示すのに非常に役立ちます。他のプロットは同じスペースでより詳細にわかりやすく表示できるので、私の意見では、2つまたは3つのグループを比較するために一般的に使用されているように、売られすぎています。当然、これは一般的に評価されていないとしても広く認められており、ボックスプロットのさまざまな機能強化により詳細が示されています。

ばらつきのある深刻な作業には、元のデータへのアクセスが必要です。

これは幅広いブラシであり、詳細を追加できます。たとえば、ボックス内の中央値の位置により、もう少し情報が得られる場合があります。

更新

ボックスプロットからの分散を推測するという特定の質問よりも、一般的にボックスプロットの使用(および制限)に多くの人が興味を持っていると思います(間接的な場合を除いて、おおよそ、そして時々」)、@ Christian Sauerの指示に従って、代替案についてさらにコメントを追加します。

  • 賢明に使用されるヒストグラムは、多くの場合、依然として競争力があります。Freedman、Pisani、Purvesによるモダンクラシックの入門テキストは、これらをすべて使用しています。

  • ドットプロットまたはストリッププロット(チャート)(および他の多くの名前)として知られているものは、簡単に理解できます。必要に応じて、ビニング後に同一のポイントを積み重ねることができます。中央値と四分位数、または平均と信頼区間を心のコンテンツに追加できます。

  • クォンタイルプロットは、後天的な味ですが、いくつかの点で最も汎用性があります。ここには、累積確率(プロット位置)の順序付けられた値のプロットと、データが考慮される「ブランド」分布(正規、指数、ガンマなど)である場合に直線になる分位数プロットが含まれます。(CJ Geyerが使用する「ブランド名」への言及については、@ Scortchiに謝辞を述べます。)

しかし、包括的なリストは不可能です。(たとえば、非常にまれに、桁優先がramp延している場合のように、茎葉表現がデータの重要な詳細を表示するのにぴったりであることを追加します。)主要な原則は、最良の種類の分布プロットが面白そうに見えない、興味深いまたは重要なデータの微細構造(モダリティ、粒度、外れ値など)および粗い構造(レベル、広がり、歪度など)の認識。

ボックスプロットは、あらゆる種類の構造を表示するのに等しく適していません。彼らはそうすることはできず、そうすることも意図していませんでした。マサチューセッツ州リーディングの探検データ分析におけるJW Tukey :Addison-Wesley(1977)が、レイリーからの二峰性データの例を示したが、これはボックスプロットが主要構造を完全に覆い隠していることを示すに値する。彼は偉大な統計学者として、箱ひげ図が常に答えであるとは限らないことをよく知っていました。

入門テキストで広く行われている奇妙な慣行では、ANOVAについて話し合いながら、平均値と分散ではなく中央値と四分位数(むしろSD)を示すボックスプロットを読者に紹介しています。当然のことながら、データを見ることは見ないことよりもはるかに優れていますが、それでもなお、より適切なグラフィック表現は、おそらく、近似平均+/- SEの適切な倍数を持つ生データのプロットです。


ニック、少数の変数に対する箱ひげ図の代替案を説明していただけますか?
クリスチャンザウアー14年

@ChristianSauerプロンプトをありがとう:更新をご覧ください。
ニックコックス14年

非常に素晴らしい更新をありがとう。私は特にあなたの最後の段落が好きです、ANOVAや回帰と相まって箱ひげ図は非常に紛らわしいです-それはリンゴとオレンジを比較するようなものです。
クリスチャンザウアー14年

2
統計は、他のほぼすべての科学と同様に、他の科学からコピーされたばかりの奇妙な用語、表記法、および分析習慣に満ちています。
ニックコックス14年

1
私は完全に同意します-私の修士論文では、正規分布の独立変数をチェックしました...それは貨物カルト統計の最高の形です:(
Christian Sauer 14年

6

素朴なアプローチ:

0.67σ1.35σ

母集団が正規分布に従うことを前提とする場合(これは重要な仮定であり、それほど重要ではない場合があります)、母集団の標準偏差は式から概算できますIQR=1.35σσ=0.74IQR

また、箱ひげ図による分散の比較について:幅の広い箱は大きな分散を意味しますが、それは探索的な理解をもたらし、ひげと外れ値も考慮する必要があります。確認のために、仮説の対比を使用する必要があります。


分散を比較するには、両方の分布が正規であると仮定する必要がありますか?ボックスが中心に対して対称である場合、変数は正常であると推測できますか?
ドンベオ14年

1
@Nick_Staunerが言うすべてを購読します。私が公開したのは、あなたの母集団が正常であると仮定することでした。これには、対称性と尖度= 0だけでなく、特に必要です。この仮定は頻繁に違反されます。
ルーフォ14年

2
尖度はさまざまな方法で定義されます。別の(より単純な)定義では、通常(ガウス)の尖度3があります。実際に計算している場合は、ソフトウェアがどの定義を使用しているかを確認する必要があります。
ニックコックス14年

1
正規分布の場合、私が間違っていなければ、尖度3、過剰尖度0になります。人気のあるソフトウェアパッケージがデフォルトで過剰でない尖度を生成するかどうかは興味があります。それはおそらく...(一般の人々が多少反対実際には「過剰」の省略によって混乱していることを否定しないように)多くの混乱を生じるであろう
ニック・Stauner

1
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.