中心極限定理とパレート分布


10

回答:


15

α

α>2

古典的な中心極限定理の説明はこちら

引用は一種の奇妙なものです。これは、(前述のいずれかの形式の)中心極限定理が標本平均自体には適用されず、標準化された平均に適用されるためです(そして、平均と分散が何かであるものに適用しようとすると、分子と分母には有限の制限のないものが含まれるため、実際には何について話しているのかを非常に注意深く説明する必要があります。

それにもかかわらず(中心極限定理について話すために正しく表現されていないにもかかわらず)そこには根本的な点があります-サンプル平均は母平均に収束しません(大きな数の弱い法則は成り立たず、平均を定義する積分は有限ではないため)。


n>1010100

E(|X|3)

α>3n


2
α>2α>3

@kjetilかなりそうです。収束は無用に遅くなる可能性があるため、実際には2番目の瞬間以上のものが必要です。
Glen_b-2016

1
はい、それを示すために回答を追加します!
kjetil b halvorsen 2016年

2
中心極限定理に従わない一部の分布は、安定した法則に収束するように標準化できます。
マイケルR.チェニック2017

ここで素晴らしい議論。stackexchangeには、人々の回答/コメントをフォローする方法がありました;)
Chan-Ho Suh

9

α>2

α=2.1α=3.1

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

そしてここにプロットがあります:

シミュレートされたパレート平均、ヒストグラム

n=10000σ2=1。それを考える実際的な方法は次のとおりです。パレート分布は、収入(または富)の分布をモデル化するためにしばしば提案されます。収入(または富)の期待は、非常に数十億アールから非常に大きな貢献があります。実用的なサンプルサイズでサンプリングすると、サンプルに数十億アールが含まれる可能性が非常に低くなります。


3

私はすでに答えを出すのが好きですが、「一般人向けの説明」には少し技術的だと思うので、もっと直感的なものを試してみます(方程式から始めます...)。

p

μ=xp(x)dx
xxxxp(x)xp(x)p(x)μp

x¯=1nixiμpnnx¯np

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

ここに画像の説明を入力してください

これは典型的な実現であり、サンプル平均は密度平均に非常に適切に収束します(平均して中心極限定理によって与えられる方法で)。平均のないパレート分布についても同じようにします(rnorm(N、1,1);をpareto(N、1.1,1);で置き換えます)。

ここに画像の説明を入力してください

p(x)xxx

n(xμ)2p(x)dx

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.