範囲と標準偏差の関係


14

記事で、サンプルサイズ標準偏差の式を見つけましたN

σ=R¯2.534

ここで、R¯はメインサンプルからのサブサンプルの平均範囲(サイズ6)です。数値2.534はどのように計算されますか?これは正しい数字ですか?


6
参考にしてください。さらに重要なことは、次のとおりです。1.描画元の配布の種類に関係なく、ここに「正しい数字」を指定することはできません。2.これらの規則は、通常、範囲からSDを推定する近道的な方法に関心があるためです。これでコンピューターができました。なぜデータを使用しないのですか?
ニックコックス

3
@ニック申し訳ありません:あなたは正しかった。周り値4 Worksの標準偏差サンプルサイズは約ある1550310前後のサンプルサイズで機能します10。以前のコメントを削除して、自分以外のユーザーを混乱させないようにします。
whuber

1
@NickCoxそれは古いロシアのソースであり、私は前に式を見なかった。
アンディ

3
参照を与えることはめったに悪い考えではありません。読者が興味があるか、アクセスできるかを自分で決めてみましょう。(たとえば、ロシア語を読める人はここにたくさんいます。)
ニックコックス

回答:


17

pdf fを持つ分布Fからのn個の独立した値のサンプルxで、極値\ min(x)= x _ {[1]}および\ max(x)= x _ {[n]の共同分布のpdf }nFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(比例定数は多項係数の逆数です。直観的に、この共同PDFは範囲内の最小値を見つける可能性を表します、の範囲の最大値、およびの範囲内のそれらの間の中央値。場合連続している、我々はして、その中間範囲に取って代わることができる、それによって確率の唯一の「微小」量を無視する。関連する確率、差分で一次に、ある[X[1]X[1]+DX[1][X[N]X[N]+DX[N]N2[x[1]+dx[(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n2F x [ 1 ] x [ n ] ]f x [ 1 ]d x [ 1 ]f x [ n ]d x [ n ]F x [ n ]F x [ 1 ][x[1]+dx[1],x[n])F(x[1],x[n]]f(x[1])dx[1], f(x[n])dx[n],およびそれぞれ式の由来を明確にします。)F(x[n])F(x[1]),

範囲の期待とる与え標準偏差を持つ正規分布のためのと。倍数として予想される範囲は、サンプルサイズ依存します。 2.53441 σ σ N = 6 σ Nx[n]x[1]2.53441 σσn=6σn

正常

これらの値は、上のを数値的に積分することにより計算されましたと標準正規CDFに設定され、標準偏差で割る(わずかである)。{XYR2| XY}FF1(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

予想される範囲と標準偏差の間の同様の乗法関係は、分布の形状のみの特性であるため、分布のロケーションスケールファミリに対して保持されます。たとえば、均一分布の比較可能なプロットは次のとおりです。

ユニフォーム

および指数分布:

指数関数

上記の2つのプロットの値は、数値ではなく正確な積分によって取得されました。これは、それぞれの場合にと比較的単純な代数形式のために可能です。均一分布の場合、それらはに等しく、指数分布の場合、それらはここで、はオイラーの定数で、はオイラーのガンマ関数の対数微分である「ポリガンマ」関数です。F n 1fFn1(n+1)12γ+ψ(n)=γ+Γ(n)Γ(n)γψ

それらは異なりますが(これらの分布はさまざまな形状を表示するため)、3つはほぼで一致し、乗数は形状に大きく依存せず、したがって、標準偏差のオムニバス、堅牢な評価として機能できることを示します小さなサブサンプルの範囲がわかっている場合。(実際、3自由度の非常にヘビーテールのスチューデントの分布は、に対して約乗数を持ち、からそれほど遠くありません。)n=62.5t2.3n=62.5


6
素晴らしい博覧会!これは1920年代に調査されたように見えることを知りたいと思うかもしれません。Tippet 1925を参照してください。ティペットの表(表X)では、サイズ6のサンプルが与えられた範囲の期待値はです。彼は、正規分布の範囲の完全な分布の導出を示しています。これはDavid et.alによって使用されました(1954)正規性の検定の範囲分布の確率点を計算します(D'Agostino&Stephens 9.3.3.4.2を参照)。2.53441σ
アヴラハム

@Avraham明快なコメントをありがとう。グラフィックスを追加したときに驚いたのは、このアプローチ全体の本当に巧妙な部分はサイズ6のサブサンプルの使用であるということです。
whuber

ありがとう!ティペットの表は、実際には2から1000までのすべての数値に適切な乗数を提供します。もちろん、これはENIACの20年前の1925年に遡ります。
アヴラハム

@whuberは、数値(2.534)の計算方法を示すことができますか?
アンディ

答えを編集して、計算の説明を含めました。
whuber

4

この近似は、真のサンプル標準偏差に非常に近いものです。私はそれを説明する簡単なRスクリプトを書きました:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

生成されるもの:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

今、私は(まだ)なぜこれが機能するのか分かりませんが、少なくとも(額面で)近似がまともなものであるように見えます。

編集:これが機能する理由について@Whuberの例外的なコメント(上記)を参照してください


1
ほぼ均一な分布からサイズサブサンプルを描画しています。真に均一な分布の場合、比率はです。実際、シミュレーションでその係数を使用すると、に非常に近いに等しくなります。6103/72.474mean(R)/2.4742887.6sd(x)
whuber

とても本当です!> mean(R)/2.474 [1] 2887.611
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.