非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか?
ここではブートストラップ方式が一般的に使用されていることを理解していますが、他のオプションも受け入れています。ノンパラメトリックオプションを探していますが、パラメトリックソリューションが有効であることを誰かが私に納得させることができれば、それは問題ありません。サンプルサイズは400を超えています。
誰かがRでサンプルを提供できれば、とてもありがたいです。
非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか?
ここではブートストラップ方式が一般的に使用されていることを理解していますが、他のオプションも受け入れています。ノンパラメトリックオプションを探していますが、パラメトリックソリューションが有効であることを誰かが私に納得させることができれば、それは問題ありません。サンプルサイズは400を超えています。
誰かがRでサンプルを提供できれば、とてもありがたいです。
回答:
まず、平均が手元のタスクに適切なインデックスであるかどうかを確認します。歪んだ分布の「典型的な値または中心値」を探している場合、平均値はかなり代表的な値を指している可能性があります。対数正規分布を考えます:
x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")
平均(赤線)は、データの大部分からかなり離れています。20%トリム平均(緑)および中央値(青)は、「標準」値に近い値です。
結果は、「非正規」分布のタイプによって異なります(実際のデータのヒストグラムが役立ちます)。歪んでいないが、尾が重い場合、CIは非常に広くなります。
いずれにせよ、ブートストラップは実際に良いアプローチだと思います。非対称CIを提供できるからです。R
パッケージには、simpleboot
良いスタートです。
library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))
...次の結果が得られます。
# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals :
Level Percentile BCa
95% ( 1.062, 1.228 ) ( 1.065, 1.229 )
Calculations and Intervals on Original Scale
、そして平均の補正は 、あなたは本当に(かなりの大きさの歪度を持っている必要があります )それが重要 。ブートストラップは、漸近的に同等の間隔を提供しますが、画像にシミュレーションノイズを追加することもできます。(ブートストラップCIは、一般的なBootstrap and Edgeworth Expansion(Hall 1995)理論に従って、同じ1次項を自動的に修正します。)シミュレーションの証拠について思い出すことができるように、ブートストラップCIは、分析に基づくCIよりやや太いです。式。
平均補正の分析形式があれば、平均推定問題で歪度を実際に考慮する必要があるかどうかを即座に把握できます。ある意味では、これは状況がどれほど悪いかの診断ツールです。Felixが提供する対数正規分布の例では、母集団分布の正規化された歪度は、ですkappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877
。CIの幅(母集団分布の標準偏差を使用s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197
)は2*s*qnorm(0.975)/sqrt(n) = 0.2678999
、平均の補正はkappa*s/(6*n) = 0.00222779
(分子に移行した標準偏差kappa
はスケールフリーの歪度なので、Johnsonの式はスケーリングされていない母集団3番目を処理します)中心モーメント)、すなわち、CIの幅の約100分の1。わざわざ?いえいえ
対数正規分布を試して、計算します:
You'll end up with an asymmetric confidence interval around the expected value (which is not the mean of the raw data).