一部のデータの標準偏差の信頼区間を推定したいと思いました。Rコードは次のようになります。
library(boot)
sd_boot <- function (x, ind) {
res <- sd(x$ReadyChange[ind], na.rm = TRUE)
return(res)
}
data_boot <- boot::boot(data, statistic = sd_boot, R = 10000)
plot(data_boot)
このブートストラップのヒストグラムを正しく解釈できません。同様のデータの他のすべてのセットは、ブートストラップ推定の正規分布を示しています...しかし、これはそうではありません。ちなみに、これは実際の生データです:
> data$ReadyChange
[1] 27.800000 8.985046 11.728021 8.830856 5.738600 12.028310 7.771528 9.208924 11.778611 6.024259 5.969931 6.063484 4.915764
[14] 12.027639 9.111146 13.898171 12.921377 6.916667 10.764479 6.875000 12.875000 7.017917 9.750000 7.921782 12.911551 6.000000
このブートストラップパターンの解釈について教えてください。
1
コードをコピーして貼り付けても、結果を再現できません。非常に正規分布のヒストグラムが表示されます。
—
jwimberley 2017年
@jwimberley、間違ったデータベクトルがありました...発見していただきありがとうございます。実際のデータは編集の下のポストにあります。
—
user16
新しいデータのパターンが確認されました。私の推測では、それは他のすべてのものよりもはるかに大きいデータポイント27.800000が原因です。
—
psarka 2017年
@psarka確認しています。このポイントを削除すると、奇妙な動作がなくなります。このポイントがない場合のsdの標準偏差は3.02ですが、このポイントでは4.24です。これは、3.02と4.24のピークを説明しています(ブートストラップに含まれていないポイント、ブートストラップに含まれているポイント)。この点が複数回含まれている場合は、より高い共振になります。
—
jwimberley 2017年
@mdeweyこれは、私が信用したくないプサルカの観察に基づいていました。
—
jwimberley 2017年