同一の5数の要約を持つ2つの分布は常に同じ形になりますか?


8

N(x、s)とU(x、s)を持つことができるので、同じ平均と分散を持つ2つの分布が異なる形状になる可能性があることを知っています

しかし、それらの最小値、Q1、中央値、Q3、および最大値が同一である場合はどうでしょうか?

その場合、分布は異なって見えますか、それとも同じ形状をとる必要がありますか?

これの背後にある私の唯一の論理は、彼らがまったく同じ5数の要約を持っている場合、彼らはまったく同じ分布形状をとらなければならないということです。


1
この質問に対する答えは明白ないくつかの意味である-我々は完全にchararacteriseことができれば、どんな単にそれについて5つの数字を引用して分布し、その後、確率分布のすべてのこれらの試験は非常に簡単になります!しかし、5つの数値の要約を引用したり、ボックスプロットでデータをグラフで表示したりすると、どれだけの情報が不足しているかという興味深い点が生じます。
Silverfish、2015年

2
は通常、平均と標準偏差の一様分布ではなく、で始まりで終わる間隔の一様分布に使用されることに注意してください。また、表記が正規分布に使用されることはめったにありません(私はそうするいくつかの教科書を見てきましたが)。2番目のパラメーターは、標準偏差ではなく分散を表す方がはるかに一般的です。x s x s N x s U(x,s)xsxsN(x,s)
Silverfish、2015年

回答:


17

5つの数値の要約が同じであっても、分布が同じであるとは限りません。これは、ボックスプロットでデータをグラフィカルに表示したときに失われる情報の量を示しています。

おそらく、問題を確認する最も簡単な方法は、5つの数値の要約では、最小四分位数と下位四分位数の間、または下位四分位数と中央値の間などの値の分布について何もわからないということです。あなたは最小と低い四分位の間の頻度が低い四分位と中央値の間の頻度に一致する必要があることを知っています(明らかな例外を除いて、たとえば、四分位にデータがある場合、またはさらに悪いことに、2つの四分位が関連付けられている場合)、それらの頻度が割り当てられている変数の値。次のような状況が考えられます。

同じ5つの数値の要約と箱ひげ図による異なる分布

これらの2つの分布は5つの数値の要約が同じであるため、それらの箱ひげ図は同じですが、各四分位数間で均一な分布を持つようにを選択しましたが、は四分位数に近い低周波数と中間の高周波数の分布を持っています2つの四分位数。事実上、の分布は、の分布を取り、四分位に近いほとんどのデータをそこから遠ざけることによって形成されました。私のコードは実際にこれを逆に実行しますの不規則な分布から始めて、ピークからのデータを再割り当てして谷を埋めることによって周波数を平均化します。Y Y X YXYYXRY

編集:@Glen_bが言うように、累積分布を見ると、これはさらに明白になります。四分位数の位置を示すグリッド線を追加しました。これは、2つの分布で同じであり、経験的CDFが交差します。

同じ5つの数値の要約を持つ2つの分布の経験的CDF

Rコード

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

1
+1あなたの例は素晴らしいです。なぜなら、最初は考えるかもしれません。まあ、確かに、分布は無限次元のオブジェクトなので、5つの数値で完全に記述することはできませんが、確かに同じ平均/中央値/四分位数などのすべての分布です。少なくとも非常に似ています!まあ、いいえ、そうではありません。ちなみに、PDFはCDFよりも目立つように表示されます。
amoeba 2015年

1
@amoebaおかげで、視覚的にヒストグラムははるかに印象的です。CDFは、それを一般化する方法という意味で、何が起こっているのかをより明確に示していると思います。
Silverfish 2015年

@amoeba「まあ、確かに分布は無限次元のオブジェクトなので、5つの数字で完全に表現することはできない」とは思いませんか。たとえば、通常のPDFは2次元のオブジェクトです(ような定数に課金したい場合は、おそらく1次元または2次元以上)...無限よりもかなり小さいです!鈍くなってすみません。π
Alexis

私はそのコメントで「[任意]ディストリビューション」、ではないいくつかの特定のパラメトリックな家族からの配布...意味だと思う@Alexis
アメーバ

@amoebaそれは公正です。特に修辞的な使用だったので、それでも、「無限大」を投げるように注意する必要があります。誰かがシステムの一部として本当に無限大を主張している場合、おそらくどこかの不均衡に裁定取引があったと思います。:)
Alexis

15

これは、(累積)分布関数を検討することで最も明確に答えられます。

最小値、最大値、および3つの四分位数を指定すると、累積分布関数で正確に5つの点が指定されますが、それらの点の間の累積分布関数は、それらの点を通過するその間の単調な非減少関数である可能性があります。

ここに画像の説明を入力してください

図面では、赤と黒のCDFは同じ最小値、最大値、および四分位数を共有していますが、分布は明らかに異なります。明らかに、同じ5点を通過する他のCDFをいくつでも指定できます。

実際、私たちが行ったことは、分布関数を4つのボックス内に制限することです。

ここに画像の説明を入力してください

(CDFの他の条件も満たしている限り)。それはそれほど多くの制限ではありません。

同じ概念をサンプル量に適用することができます。それでも、2つの異なる経験的CDFには同じ5つの数値の要約がある場合があります。


3

いいえ、そうではありません。単純な反例として、の連続一様分布をの離散一様分布と比較します。{ 0 1 2 3 }[0,3]{0,1,2,3}

関連する例は、よく知られているAnscombeのカルテットです。4つのデータセットがあり、6つの同一のサンプルプロパティ(言及したものとは異なります)が完全に異なっています。参照:http : //en.wikipedia.org/wiki/Anscombe%27s_quartet

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.