パーセンタイルの信頼区間を取得するにはどうすればよいですか?


回答:


18

一般的な状況をカバーするこの質問は、単純な、非近似的な回答に値します。幸いにも1つあります。

が未知の分布Fからの独立した値であり、そのq 番目の分位数IがF 1q と書くと仮定します。これは、各X iが(少なくとも)qF 1q 以下になる可能性があることを意味します。その結果、F 1q 以下のX iの数は二項式nX1,,XnFqthF1(q)XiqF1(q)XF1q分布。q

この簡単な考察に動機付けられた、ジェラルド・ハーンとウィリアム・ミーカーのハンドブック 『統計的間隔』(Wiley 1991)

両面分布フリー同類ための信頼区間F - 1qは ...得られるとして、[ X L X U ]1001αF1q[バツlバツあなた]

ここで、ある順序統計量のサンプル。彼らは言うために進みますバツ1バツ2バツ

一つは、整数を選択することができ対称的(又はほぼ対称)の周りに、Q N + 1 とその要件に可能な被写体として互いに接近としてB U - 1 ; N Q - B L - 1 ; N Q 1 - α 0lあなたq+1

(1)Bあなた1;qBl1;q1α

左側の式は、Binomial 変数の値が{ l l + 1 u 1 }のいずれかである確率です。明らかに、これは、分布の下位100 q に含まれるデータ値X iの数が小さすぎない(l未満)か、大きすぎない(u以上)かの可能性です。q{ll+1あなた1}バツ100qlu

ハーンとミーカーは、私が引用するいくつかの有用な発言を続けています。

前の間隔は、式の左辺で与えられ、実際の信頼水準ため保守的である、指定された値よりも大きい1 - α。...(1)1α

少なくとも望ましい信頼水準を持つ、分布のない統計的区間を構築することが不可能な場合があります。この問題は、小さなサンプルから分布の裾のパーセンタイルを推定するときに特に深刻です。...場合によっては、アナリストはuを非対称的に選択することでこの問題に対処できます。別の方法としては、信頼水準を下げる方法があります。lu


例を見てみましょう(これもHahn&Meekerによって提供されます)。彼らは、順序付けられた集合供給「は、化学プロセスからの化合物の測定値を」とを求める100 1 - α = 95 %のための信頼区間をQ = 0.90パーセンタイル。彼らはl = 85u = 97が機能すると主張しています。n=100100(1α)=95%q=0.90l=85u=97

Binomial(100、0.90)分布を示す図

この間隔の合計確率は、図の青いバーで示されているようにです。2つのカットオフを選択し、左尾のすべての可能性を排除することで、95 に到達するのと同じくらい近いですが、それでも上回っています。そして、それらのカットオフを超えている右尾。95.3%95%

中央からの値を除いたデータを順番に示します。81

1.491.662.0524.3324.7225.4625.6725.7726.6428.2828.2829.0729.1631.1431.8333.2437.3253.4358.11

で最大24.3397 番目の最大のです33.24。間隔は、したがって、である[ 24.33 33.24 ]85th24.3397th33.24[24.33,33.24]

それを再解釈してみましょう。この手順は、少なくとも持っていることになっていたカバーのチャンス90 番目のパーセンタイル。それは、パーセンタイル、実際に超えた場合は33.24を手段が、我々が観察しているだろうことを、97の以上のうち100の以下である私達のサンプルの値90 番目のパーセンタイル。 多すぎる。 そのパーセンタイル未満である場合には24.33手段は、我々が観察しているだろうことを、84の未満であり、当社のサンプル中またはそれ以下の値が90 番目のパーセンタイル。 それは少なすぎます。95%90th33.249710090th24.338490th いずれの場合において-図中の赤いバーで示さとおりに-それは不利な証拠であろうこの間隔内にあるパーセンタイル。90th


uの適切な選択肢を見つける1つの方法は、必要に応じて検索することです。これは、対称的な近似間隔で開始し、luの両方を最大2まで変化させて、適切なカバレッジの間隔を検索する方法です(可能な場合)。コードで示しています。前の例の正規分布のカバレッジをチェックするように設定されています。その出力はlulu2R

シミュレーションの平均カバレッジは0.9503でした。予想カバレッジは0.9523

シミュレーションと期待の間の一致は優れています。

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

4

導出

τqτXFX1(τ)q^τ=F^1(τ)

n(q^τqτ)

まず、経験累積分布関数の漸近分布が必要です。

F^(x)=1n1{Xi<x}1{Xi<x}P(Xi<x)=F(x)F(x)(1F(x)

n(F^(x)F(x))N(0,F(x)(1F(x)))(1

ここで、inverseは連続関数であるため、デルタ法を使用できます。

n(y¯μy)N(0,σ2)g(n(g(y¯)g(μy))N(0,σ2(gμy2

バツ=qτg=F1

F1F^qτF1Fqτ=q^τqτ

F1F^qτF^1F^qτ=q^τ

ここで、上記のデルタ法を適用します。

以来ddバツF1バツ=1fF1バツ

q^τqτN0Fqτ1FqτfF1Fqτ2=N0Fqτ1Fqτfqτ2

次に、信頼区間を作成するには、上記の分散の各項の対応するサンプルをプラグインして標準誤差を計算する必要があります。

結果

seq^τ=F^q^τ1F^q^τf^q^τ2= τ1τf^q^τ2

C0.95q^τ=q^τ±1.96seq^τ

バツ


1
リンク先の記事の内容で回答を広げていただけませんか?リンクが永久に機能しない可能性があり、その場合、この回答の有用性は低くなります
Andy

1
二項分布に基づく自由なCi分布と比較した、密度推定に基づくこの漸近的な結果の利点は何ですか?
マイケルM

これは、元々リンクた記事に基づいていますか?
Nick Stauner 2014年

はい、そのリンクを再度追加する必要がありますか?これはよく知られている結果だと思います。私は以前にクラスでそれを見たことがあり、グーグルで見つけるのは難しくありません。このような場合、リンクするかタイプアップするか、またはその両方を行う方が良いですか?
bmciv 2014年

私は両方とも言いますが、適切な帰属のためにこれが引用されている/完全にそこから派生している場合は、編集して戻す必要があります。それ以外の場合は、編集するかどうかは問題ではないかもしれませんが、一般に、Stack Exchangeポリシーはリンクのみの回答を阻止してリンクの腐敗を回避し、原則としてリンクインデックスではなく独立したリポジトリにすることを目的としています。そのシナリオのどれだけが架空の「滑りやすい斜面」以上であるかはわかりません)。
Nick Stauner、2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.