記事で、サンプルサイズ標準偏差の式を見つけました
ここで、はメインサンプルからのサブサンプルの平均範囲(サイズ)です。数値はどのように計算されますか?これは正しい数字ですか?
記事で、サンプルサイズ標準偏差の式を見つけました
ここで、はメインサンプルからのサブサンプルの平均範囲(サイズ)です。数値はどのように計算されますか?これは正しい数字ですか?
回答:
pdf fを持つ分布Fからのn個の独立した値のサンプルで、極値\ min(x)= x _ {[1]}および\ max(x)= x _ {[n]の共同分布のpdf }は
(比例定数は多項係数の逆数です。直観的に、この共同PDFは範囲内の最小値を見つける可能性を表します、の範囲の最大値、およびの範囲内のそれらの間の中央値。場合連続している、我々はして、その中間範囲に取って代わることができる、それによって確率の唯一の「微小」量を無視する。関連する確率、差分で一次に、ある[X[1]、X[1]+DX[1])[X[N]、X[N]+DX[N])N−2[x[1]+dx[F( x [ 1 ]、 x [ n ] ]f( x [ 1 ])d x [ 1 ]、f( x [ n ])d x [ n ]、F( x [ n ])−F( x [ 1 ]) およびそれぞれ式の由来を明確にします。)
範囲の期待とる与え標準偏差を持つ正規分布のためのと。倍数として予想される範囲は、サンプルサイズ依存します。 2.53441 σ σ N = 6 σ N
これらの値は、上のを数値的に積分することにより計算されましたと標準正規CDFに設定され、標準偏差で割る(わずかである)。{(X、Y)∈R2| X≤Y}FF1
予想される範囲と標準偏差の間の同様の乗法関係は、分布の形状のみの特性であるため、分布のロケーションスケールファミリに対して保持されます。たとえば、均一分布の比較可能なプロットは次のとおりです。
および指数分布:
上記の2つのプロットの値は、数値ではなく正確な積分によって取得されました。これは、それぞれの場合にと比較的単純な代数形式のために可能です。均一分布の場合、それらはに等しく、指数分布の場合、それらはここで、はオイラーの定数で、はオイラーのガンマ関数の対数微分である「ポリガンマ」関数です。F n − 1
それらは異なりますが(これらの分布はさまざまな形状を表示するため)、3つはほぼで一致し、乗数は形状に大きく依存せず、したがって、標準偏差のオムニバス、堅牢な評価として機能できることを示します小さなサブサンプルの範囲がわかっている場合。(実際、3自由度の非常にヘビーテールのスチューデントの分布は、に対して約乗数を持ち、からそれほど遠くありません。)
この近似は、真のサンプル標準偏差に非常に近いものです。私はそれを説明する簡単なRスクリプトを書きました:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
生成されるもの:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
今、私は(まだ)なぜこれが機能するのか分かりませんが、少なくとも(額面で)近似がまともなものであるように見えます。
編集:これが機能する理由について@Whuberの例外的なコメント(上記)を参照してください
mean(R)/2.474
sd(x)