Andy FieldsによるRを使用した統計の発見などのセクション1.7.2、および平均対中央値の長所を挙げながら:
...平均は異なるサンプルで安定する傾向があります。
これは中央値の多くの美徳を説明した後、例えば
...中央値は、分布の両端の極端なスコアに比較的影響を受けません...
中央値が極端なスコアの影響を比較的受けないことを考えると、サンプル全体でより安定していると思っていたでしょう。だから著者の主張に戸惑った。シミュレーションを実行したことを確認するために、1Mの乱数を生成し、100の数値を1000回サンプリングし、各サンプルの平均と中央値を計算してから、それらのサンプルの平均と中央値のsdを計算しました。
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
ご覧のとおり、平均は中央値よりも密に分布しています。
添付の画像では、赤いヒストグラムは中央値です-ご覧のとおり、背が低く、尾が太いので著者の主張を確認できます。
しかし、私はこれに驚いています!より安定した中央値は、サンプル間で最終的に大きく変化する傾向がありますか?逆説的なようです!どんな洞察もいただければ幸いです。
rnorm
てみてくださいrcauchy
。