非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか?


19

非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか?

ここではブートストラップ方式が一般的に使用されていることを理解していますが、他のオプションも受け入れています。ノンパラメトリックオプションを探していますが、パラメトリックソリューションが有効であることを誰かが私に納得させることができれば、それは問題ありません。サンプルサイズは400を超えています。

誰かがRでサンプルを提供できれば、とてもありがたいです。


3
中央極限定理は、元のデータの分布に関係なく(ある条件下で)、サンプル平均の極限分布が正常であることを意味します。多くの場合、サンプルサイズは十分に大きいため、正規近似は非常に正確ですが、精度は親の分布に依存します。たとえば、元のデータのヒストグラムを投稿すると役立ちます。n>400
マクロ

回答:


18

まず、平均が手元のタスクに適切なインデックスであるかどうかを確認します。歪んだ分布の「典型的な値または中心値」を探している場合、平均値はかなり代表的な値を指している可能性があります。対数正規分布を考えます:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

対数正規分布の平均(赤)、20%トリム平均(緑)、および中央値(青)

平均(赤線)は、データの大部分からかなり離れています。20%トリム平均(緑)および中央値(青)は、「標準」値に近い値です。

結果は、「非正規」分布のタイプによって異なります(実際のデータのヒストグラムが役立ちます)。歪んでいないが、尾が重い場合、CIは非常に広くなります。

いずれにせよ、ブートストラップは実際に良いアプローチだと思います。非対称CIを提供できるからです。Rパッケージには、simpleboot良いスタートです。

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

...次の結果が得られます。

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale

詳細な回答をありがとう。パーセンタイル統計と調整パーセンタイル(BCa)統計の(最小の)違いについてコメントしていただけますか?
fmark

「ブートストラップバイアス補正加速(BCa)間隔は、パーセンタイルを調整してバイアスと歪度を補正するパーセンタイル方式の修正です(Hesterberg、T.、Monaghan、S.、Moore、D.、Clipson、A.、 &Epstein、R.(2005)。ブートストラップ法と順列テスト。統計学の実践入門、14.1–14.70。ソフトウェアで許可されている場合はいつでも、BCa修正CIを使用してください(注:1000回以上のリサンプルが必要です)
Felix S

simplebootパッケージのドキュメントから、トリミングの引数はサポートされていないようです。:(
etは

8

κ^/6s2nκ^On1/2、そして平均の補正は On1、あなたは本当に(かなりの大きさの歪度を持っている必要があります n1/2>20)それが重要 n>400。ブートストラップは、漸近的に同等の間隔を提供しますが、画像にシミュレーションノイズを追加することもできます。(ブートストラップCIは、一般的なBootstrap and Edgeworth Expansion(Hall 1995)理論に従って、同じ1次項を自動的に修正します。)シミュレーションの証拠について思い出すことができるように、ブートストラップCIは、分析に基づくCIよりやや太いです。式。

平均補正の分析形式があれば、平均推定問題で歪度を実際に考慮する必要があるかどうかを即座に把握できます。ある意味では、これは状況がどれほど悪いかの診断ツールです。Felixが提供する対数正規分布の例では、母集団分布の正規化された歪度はexp1+2exp11、ですkappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877。CIの幅(母集団分布の標準偏差を使用s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197)は2*s*qnorm(0.975)/sqrt(n) = 0.2678999、平均の補正はkappa*s/(6*n) = 0.00222779(分子に移行した標準偏差kappaはスケールフリーの歪度なので、Johnsonの式はスケーリングされていない母集団3番目を処理します)中心モーメント)、すなわち、CIの幅の約100分の1。わざわざ?いえいえ


2

対数正規分布を試して、計算します:

  1. データの対数。
  2. (1)の平均および標準偏差
  3. (2)に対応する信頼区間
  4. (3)の指数

You'll end up with an asymmetric confidence interval around the expected value (which is not the mean of the raw data).

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.