中央値の信頼区間


40

中央値およびその他のパーセンタイルで95%CIを見つける必要があります。私はこれにアプローチする方法がわかりません。私は主にRをプログラミングツールとして使用しています。

回答:


31

以下は、古典的なRデータセットの図です。

> x       = faithful$waiting
> bootmed = apply(matrix(sample(x, rep=TRUE, 10^4*length(x)), nrow=10^4), 1, median)
> quantile(bootmed, c(.025, 0.975))
2.5% 97.5% 
 73.5    77 

これにより、中央値の(73.5、77)信頼区間が得られます。

注:ジョンのおかげでバージョンを修正しました。以前はを使用していましたが、混乱を招きました!)103nrow


7
私には疑わしく狭いようです。からの関数を使用すると、library(boot)これを確認するために表示されます:> boot.ci(boot(x、function(x、i)median(x [i])、R = 1000))間隔:レベルNormal Basic 95%(74.42、78.22)(75.00 、78.49)レベルパーセンタイルBCa 95%(73.51、77.00)(73.00、77.00)
ワンストップ

2
Xi'anを歓迎します...余談ですが、私は常に元のN値を設定することを好みます。これは、さまざまなブートストラップサイズにわたって一定であるためです。したがって、通常はncol = length(x)と言っていました。そうすれば、エラーが発生する可能性が低くなります。
ジョン

6
これは、onestopの答えのように二項分位数を計算するための非効率的な方法です。
whuber

30

別のアプローチは、二項分布の分位に基づいています。
例えば:

> x=faithful$waiting
> sort(x)[qbinom(c(.025,.975), length(x), 0.5)]
[1] 73 77

4
私はこれのシンプルさが好きです...結果はブートストラップ法に近いです。
ドミニクコントワ

1
これは、連続した場合のブートストラップよりも明らかに効率的ですが、1つの欠点は、ランクが固定されていないことです。これの回避策を知っていますか?
ali_m

15

ブートストラップのリサンプリングを確認してください。ブート機能については、Rヘルプを検索してください。リサンプリングによるデータに応じて、ほぼすべての信頼区間を推定できます。


同意する。これが最善のアプローチです。私の意見では、生物医学ではあまり使われていません。
pmgjones

10
従来のブートストラップが、その場合の問題点を持っているようだとして人口分位を推定するための平滑化ブートストラップに探して考えてみましょう-参照が見つけることができるこのPDFファイルで。理論上の中央値にのみ興味がある場合は、Rのwilcox.test(..., conf.int=TRUE)関数などによって提供されるHodges-Lehman推定量を使用できます。
カラカル

4

また、他のアプローチもあります。1つは、連続性補正を行った1つのサンプルに適用されたウィルコクソンランク和検定に基づいています。Rでは、これは次のように提供できます。

wilcox.test(x,conf.level=0.95,alternative="two.sided",correct=TRUE)

そして、ここで議論された中央値のデイビッド・オリーブのCIがあります:

中央値のCI


1

qbinomアプローチに基づく結果は、小さなサンプルに対しては正しくありません。xに10個のコンポーネントがあると仮定します。次に、qbinom(c(.025、.975)、10、.5)は2と8を返します。結果の区間は、下側の順序統計を上側の統計と対称に扱いません。2と9、または3と8のいずれかを取得する必要があります。正しい答えは2と9です。SA​​Sでproc univariateをチェックできます。ここでキャッチする必要があるのは、上下に0.025以内の確率です。下位の分位点は、少なくとも.025以下を与えるため、これを行いません。1になるはずのカウントが2番目の統計にマッピングされ、0がカウントされるため、「off by one」がキャンセルされるため、一番下に保存されます。この偶然のキャンセルは上部では行われないため、ここで間違った答えが返されます。コードsort(x)[qbinom(c(.025、.975)、length(x),. 5)+ c(0,1)]はほぼ機能し、.5は他の変位値の信頼区間を取得するために他の変位値に置き換えることができますが、P [X <= aが存在する場合は正しくありません] =。025。例については、ヒギンズ、ノンパラメトリック統計を参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.