誰かがパレート分布と中心極限定理の間の関係について簡単な(素人)説明を提供できますか?私は次の声明を理解しようとしています:
誰かがパレート分布と中心極限定理の間の関係について簡単な(素人)説明を提供できますか?私は次の声明を理解しようとしています:
回答:
古典的な中心極限定理の説明はこちら
引用は一種の奇妙なものです。これは、(前述のいずれかの形式の)中心極限定理が標本平均自体には適用されず、標準化された平均に適用されるためです(そして、平均と分散が何かであるものに適用しようとすると、分子と分母には有限の制限のないものが含まれるため、実際には何について話しているのかを非常に注意深く説明する必要があります。
それにもかかわらず(中心極限定理について話すために正しく表現されていないにもかかわらず)そこには根本的な点があります-サンプル平均は母平均に収束しません(大きな数の弱い法則は成り立たず、平均を定義する積分は有限ではないため)。
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
そしてここにプロットがあります:
。それを考える実際的な方法は次のとおりです。パレート分布は、収入(または富)の分布をモデル化するためにしばしば提案されます。収入(または富)の期待は、非常に数十億アールから非常に大きな貢献があります。実用的なサンプルサイズでサンプリングすると、サンプルに数十億アールが含まれる可能性が非常に低くなります。
私はすでに答えを出すのが好きですが、「一般人向けの説明」には少し技術的だと思うので、もっと直感的なものを試してみます(方程式から始めます...)。
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
これは典型的な実現であり、サンプル平均は密度平均に非常に適切に収束します(平均して中心極限定理によって与えられる方法で)。平均のないパレート分布についても同じようにします(rnorm(N、1,1);をpareto(N、1.1,1);で置き換えます)。