回答:
たくさんの厳密な仮定がないわけではありません。答えがイエスであると仮定する場合(質問する代わりに、私はあなたを称賛します)、私はこの(カウンター)例であなたをだますことができるに違いありません:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
よく似ていますよね?まだ!
コードから明らかでない場合、人口2
は次のとおりです。
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
いいえ、まったく対称であるという理由だけで、この母集団が正常であると推定することはできません。人口のQQプロットは2
次のとおりです。
確かに私には普通に見えません。
編集-コメントへの応答:
分散は数値統計です。2つの分布の分散が文字通り等しい場合、それについてあなたが言わなければならないことはほとんどすべてです。2つの分布が厳密に正規である場合、再び、両方とも適合する数学的な定義があります。2つの分布が正確に正規分布または分散が等しくない場合、別のことを言うべきではありません。それらがほぼ等しいまたは正常であると言いたい場合は、おそらくここで指定していない目的に合わせた方法で「おおよそ」を定義する必要があります。分布の違いに対する感度は、通常、あなたのような質問の動機付けとなる分析によって大きく異なります。例えば、サンプルサイズが等しい場合の後者の違反にはかなり堅牢です)。したがって、母集団2
と母集団1
(正規分布)を比較するためのテストはお勧めしません。
これはよく回答されています。これらの余分なコメントは、コメントとしては長すぎます(更新:現在は長すぎます)。
厳密には、分布の変動性について箱ひげ図から読み取ることができるのは、四分位範囲(箱の長さまたは高さ)と範囲(表示の両端間の長さまたは高さ)だけです。
近似として、同一と思われるボックスプロットは、非常に類似した分散を持っている可能性がありますが、注意してください。非常に異なるボックス位置またはテール(または両方)のボックスプロットは、同様の分散を持つ可能性はほとんどありませんが、不可能ではありません。しかし、ボックスプロットが同じように見えても、ボックス内の変動性または実際にウィスカー内の変動性について、プレーンまたはバニラボックスプロットの情報は得られません(ボックスと、より近い四分位の1.5 IQR内のデータポイントの間にしばしば示される線) 。NB箱ひげ図にはいくつかのバリエーションがあります。作者は、多くの場合、ソフトウェアで使用される正確なルールを文書化するのが苦手です。
ボックスプロットの人気には価格があります。ボックスプロットは、多くのグループまたは変数(たとえば20または30、場合によってはそれ以上)の全体的な特徴を示すのに非常に役立ちます。他のプロットは同じスペースでより詳細にわかりやすく表示できるので、私の意見では、2つまたは3つのグループを比較するために一般的に使用されているように、売られすぎています。当然、これは一般的に評価されていないとしても広く認められており、ボックスプロットのさまざまな機能強化により詳細が示されています。
ばらつきのある深刻な作業には、元のデータへのアクセスが必要です。
これは幅広いブラシであり、詳細を追加できます。たとえば、ボックス内の中央値の位置により、もう少し情報が得られる場合があります。
更新
ボックスプロットからの分散を推測するという特定の質問よりも、一般的にボックスプロットの使用(および制限)に多くの人が興味を持っていると思います(間接的な場合を除いて、おおよそ、そして時々」)、@ Christian Sauerの指示に従って、代替案についてさらにコメントを追加します。
賢明に使用されるヒストグラムは、多くの場合、依然として競争力があります。Freedman、Pisani、Purvesによるモダンクラシックの入門テキストは、これらをすべて使用しています。
ドットプロットまたはストリッププロット(チャート)(および他の多くの名前)として知られているものは、簡単に理解できます。必要に応じて、ビニング後に同一のポイントを積み重ねることができます。中央値と四分位数、または平均と信頼区間を心のコンテンツに追加できます。
クォンタイルプロットは、後天的な味ですが、いくつかの点で最も汎用性があります。ここには、累積確率(プロット位置)の順序付けられた値のプロットと、データが考慮される「ブランド」分布(正規、指数、ガンマなど)である場合に直線になる分位数プロットが含まれます。(CJ Geyerが使用する「ブランド名」への言及については、@ Scortchiに謝辞を述べます。)
しかし、包括的なリストは不可能です。(たとえば、非常にまれに、桁優先がramp延している場合のように、茎葉表現がデータの重要な詳細を表示するのにぴったりであることを追加します。)主要な原則は、最良の種類の分布プロットが面白そうに見えない、興味深いまたは重要なデータの微細構造(モダリティ、粒度、外れ値など)および粗い構造(レベル、広がり、歪度など)の認識。
ボックスプロットは、あらゆる種類の構造を表示するのに等しく適していません。彼らはそうすることはできず、そうすることも意図していませんでした。マサチューセッツ州リーディングの探検データ分析におけるJW Tukey :Addison-Wesley(1977)が、レイリーからの二峰性データの例を示したが、これはボックスプロットが主要構造を完全に覆い隠していることを示すに値する。彼は偉大な統計学者として、箱ひげ図が常に答えであるとは限らないことをよく知っていました。
入門テキストで広く行われている奇妙な慣行では、ANOVAについて話し合いながら、平均値と分散ではなく中央値と四分位数(むしろSD)を示すボックスプロットを読者に紹介しています。当然のことながら、データを見ることは見ないことよりもはるかに優れていますが、それでもなお、より適切なグラフィック表現は、おそらく、近似平均+/- SEの適切な倍数を持つ生データのプロットです。
素朴なアプローチ:
母集団が正規分布に従うことを前提とする場合(これは重要な仮定であり、それほど重要ではない場合があります)、母集団の標準偏差は式から概算できます
また、箱ひげ図による分散の比較について:幅の広い箱は大きな分散を意味しますが、それは探索的な理解をもたらし、ひげと外れ値も考慮する必要があります。確認のために、仮説の対比を使用する必要があります。