回答:
この生物学のSEスレッドによると、男性の成人の身長の標準偏差は約メートル、女性の標準偏差は約0.06メートルです。
これらを小数点第1位で四捨五入すると、メートルになります。標準偏差がメートルとして報告されるという事実は、メートル未満の標準偏差を示します...しかし、たとえばメートルの標準偏差は、に丸めるため、報告された数値と一致しますが、サンプルの高さの変動は、一般集団で毎日観察される変動よりもわずかに小さいだけです。0.05 0.048 0.0
図はよく報告されていますか?さて、平均がそうであったように、標準偏差が小数点以下2桁で報告されていた場合、それははるかに有用でしょう。また、単純な数値エラーまたは丸めエラーの場合もあります。例えば、されている可能性が切り捨てによりもむしろ丸いです。しかし、図が標準エラーを参照している可能性はありますか?標準偏差と標準誤差のどちらが引用されているかが不明確になるように書かれた数字をよく目にします。たとえば、「サンプル平均は」のようになります。0.0 1.62 (± 0.06 )
正しい標準偏差がから小数点第1位に四捨五入するのはどれほど妥当でしょうか。次のRコードは、標準偏差母集団から抽出されたサイズ20の100万サンプルをシミュレートし(女性の身長について他で報告されているように)、各サンプルの標準偏差を見つけ、結果のヒストグラムをプロットし、観測された標準偏差が未満のサンプル:0.06 0.05
set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6
[1] 0.170691
したがって、丸める標準偏差は妥当ではありません。高さが正規の標準偏差正規分布している場合、約17%の確率で発生します。0.06
これらの仮定に従って、シミュレーションではなく、次のように約17%の確率を計算することもできます。
ここで、が度のカイ2乗分布に従うという事実を使用しました自由の。Rの確率はを使用して計算できます。男性の標準偏差の公開された数値に合わせてをに置き換えると、確率は約4%に減少します。@whuberが以下のコメントで指摘しているように、この種の小さな「ゼロへの丸め」SDは、サンプリングされたグループが一般的な母集団よりも均一である場合に発生する可能性が高くなります。人口標準偏差が約 N - 1 = 19 0.06 0.07 0.06pchisq(q = 19*0.05^2/0.06^2, df = 19)
メートルの場合、サンプルのサイズが大きければ、このような小さなサンプル標準偏差が得られる確率も低下します。
curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")
curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")
pchisq(q = 19*0.005^2/0.01^2, df = 19)
、サンプルのSDの確率は0.04%しかなく、0.005未満です。SD = 0.008の母集団でも、確率は約0.8%です。しかし、人口SDが0.007、0.006、0.005の場合、確率はそれぞれ4%、17%(偶然ではありません)、54%になります