すべてのサブサンプルのサンプルサイズが同じである場合、式は非常に簡単です。サイズサブサンプルが(合計サンプル)、結合サンプルの分散は、各サブサンプルの平均および分散に依存します:
ここでは、サンプル平均の分散を意味します。gkgkEjVjVar(Ej)
Var(X1,…,Xgk)=k−1gk−1(∑j=1gVj+k(g−1)k−1Var(Ej)),
Var(Ej)
Rでのデモ:
> x <- rnorm(100)
> g <- gl(10,10)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 9/99*(sum(vs) + 10*var(mns))
[1] 1.033749
> var(x)
[1] 1.033749
サンプルサイズが等しくない場合、式はあまり良くありません。
編集:等しくないサンプルサイズの式
サブサンプルが個あり、それぞれがk j、j = 1 、… 、g要素で合計n = ∑ k j値の場合、
V a r (X 1、… 、X n)= 1gkj,j=1,…,gn=∑kj ˉ X =(Σの G J = 1つの KJ ˉ X j)/nは、すべての平均の加重平均です(すべての値の平均に等しい)。
Var(X1,…,Xn)=1n−1(∑j=1g(kj−1)Vj+∑j=1gkj(X¯j−X¯)2),
X¯=(∑gj=1kjX¯j)/n
繰り返しますが、デモ:
> k <- rpois(10, lambda=10)
> n <- sum(k)
> g <- factor(rep(1:10, k))
> x <- rnorm(n)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 1/(n-1)*(sum((k-1)*vs) + sum(k*(mns-weighted.mean(mns,k))^2))
[1] 1.108966
> var(x)
[1] 1.108966
ところで、これらの式は、スケーリングされた和として所望の分散を書き込むことによって導出することが容易である、次いで導入ˉ X J: [ (X J I - ˉ X J)- (ˉ X J - ˉ X)] 2、差分式の平方を用いて、そして単純化。(Xji−X¯)2X¯j[(Xji−X¯j)−(X¯j−X¯)]2