N(x、s)とU(x、s)を持つことができるので、同じ平均と分散を持つ2つの分布が異なる形状になる可能性があることを知っています
しかし、それらの最小値、Q1、中央値、Q3、および最大値が同一である場合はどうでしょうか?
その場合、分布は異なって見えますか、それとも同じ形状をとる必要がありますか?
これの背後にある私の唯一の論理は、彼らがまったく同じ5数の要約を持っている場合、彼らはまったく同じ分布形状をとらなければならないということです。
N(x、s)とU(x、s)を持つことができるので、同じ平均と分散を持つ2つの分布が異なる形状になる可能性があることを知っています
しかし、それらの最小値、Q1、中央値、Q3、および最大値が同一である場合はどうでしょうか?
その場合、分布は異なって見えますか、それとも同じ形状をとる必要がありますか?
これの背後にある私の唯一の論理は、彼らがまったく同じ5数の要約を持っている場合、彼らはまったく同じ分布形状をとらなければならないということです。
回答:
5つの数値の要約が同じであっても、分布が同じであるとは限りません。これは、ボックスプロットでデータをグラフィカルに表示したときに失われる情報の量を示しています。
おそらく、問題を確認する最も簡単な方法は、5つの数値の要約では、最小四分位数と下位四分位数の間、または下位四分位数と中央値の間などの値の分布について何もわからないということです。あなたは最小と低い四分位の間の頻度が低い四分位と中央値の間の頻度に一致する必要があることを知っています(明らかな例外を除いて、たとえば、四分位にデータがある場合、またはさらに悪いことに、2つの四分位が関連付けられている場合)、それらの頻度が割り当てられている変数の値。次のような状況が考えられます。
これらの2つの分布は5つの数値の要約が同じであるため、それらの箱ひげ図は同じですが、各四分位数間で均一な分布を持つようにを選択しましたが、は四分位数に近い低周波数と中間の高周波数の分布を持っています2つの四分位数。事実上、の分布は、の分布を取り、四分位に近いほとんどのデータをそこから遠ざけることによって形成されました。私のコードは実際にこれを逆に実行しますの不規則な分布から始めて、ピークからのデータを再割り当てして谷を埋めることによって周波数を平均化します。Y Y X YR
編集:@Glen_bが言うように、累積分布を見ると、これはさらに明白になります。四分位数の位置を示すグリッド線を追加しました。これは、2つの分布で同じであり、経験的CDFが交差します。
Rコード
yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))
x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)
ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n",
main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
lty = "solid", lwd=2, bty="n")
par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")
summary(x)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
summary(y)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
これは、(累積)分布関数を検討することで最も明確に答えられます。
最小値、最大値、および3つの四分位数を指定すると、累積分布関数で正確に5つの点が指定されますが、それらの点の間の累積分布関数は、それらの点を通過するその間の単調な非減少関数である可能性があります。
図面では、赤と黒のCDFは同じ最小値、最大値、および四分位数を共有していますが、分布は明らかに異なります。明らかに、同じ5点を通過する他のCDFをいくつでも指定できます。
実際、私たちが行ったことは、分布関数を4つのボックス内に制限することです。
(CDFの他の条件も満たしている限り)。それはそれほど多くの制限ではありません。
同じ概念をサンプル量に適用することができます。それでも、2つの異なる経験的CDFには同じ5つの数値の要約がある場合があります。
いいえ、そうではありません。単純な反例として、の連続一様分布をの離散一様分布と比較します。{ 0 、1 、2 、3 }
関連する例は、よく知られているAnscombeのカルテットです。4つのデータセットがあり、6つの同一のサンプルプロパティ(言及したものとは異なります)が完全に異なっています。参照:http : //en.wikipedia.org/wiki/Anscombe%27s_quartet