回答:
一般的な状況をカバーするこの質問は、単純な、非近似的な回答に値します。幸いにも1つあります。
が未知の分布Fからの独立した値であり、そのq 番目の分位数IがF − 1(q )と書くと仮定します。これは、各X iが(少なくとも)qがF − 1(q )以下になる可能性があることを意味します。その結果、F − 1(q )以下のX iの数は二項式(n分布。
この簡単な考察に動機付けられた、ジェラルド・ハーンとウィリアム・ミーカーのハンドブック 『統計的間隔』(Wiley 1991)
両面分布フリー同類ための信頼区間F - 1(qは) ...得られるとして、[ X (L )、X (U ) ]
ここで、ある順序統計量のサンプル。彼らは言うために進みます
一つは、整数を選択することができ対称的(又はほぼ対称)の周りに、Q (N + 1 )とその要件に可能な被写体として互いに接近としてB (U - 1 ; N 、Q )- B (L - 1 ; N 、Q )≥ 1 - α 。
左側の式は、Binomial 変数の値が{ l 、l + 1 、… 、u − 1 }のいずれかである確率です。明らかに、これは、分布の下位100 q %に含まれるデータ値X iの数が小さすぎない(l未満)か、大きすぎない(u以上)かの可能性です。
ハーンとミーカーは、私が引用するいくつかの有用な発言を続けています。
前の間隔は、式の左辺で与えられ、実際の信頼水準ため保守的である、指定された値よりも大きい1 - α。...
少なくとも望ましい信頼水準を持つ、分布のない統計的区間を構築することが不可能な場合があります。この問題は、小さなサンプルから分布の裾のパーセンタイルを推定するときに特に深刻です。...場合によっては、アナリストはとuを非対称的に選択することでこの問題に対処できます。別の方法としては、信頼水準を下げる方法があります。
例を見てみましょう(これもHahn&Meekerによって提供されます)。彼らは、順序付けられた集合供給「は、化学プロセスからの化合物の測定値を」とを求める100 (1 - α )= 95 %のための信頼区間をQ = 0.90パーセンタイル。彼らはl = 85とu = 97が機能すると主張しています。
この間隔の合計確率は、図の青いバーで示されているようにです。2つのカットオフを選択し、左尾のすべての可能性を排除することで、95 %に到達するのと同じくらい近いですが、それでも上回っています。そして、それらのカットオフを超えている右尾。
中央からの値を除いたデータを順番に示します。
で最大24.33と97 番目の最大のです33.24。間隔は、したがって、である[ 24.33 、33.24 ]。
それを再解釈してみましょう。この手順は、少なくとも持っていることになっていたカバーのチャンス90 番目のパーセンタイル。それは、パーセンタイル、実際に超えた場合は33.24を手段が、我々が観察しているだろうことを、97の以上のうち100の以下である私達のサンプルの値90 番目のパーセンタイル。 多すぎる。 そのパーセンタイル未満である場合には24.33手段は、我々が観察しているだろうことを、84の未満であり、当社のサンプル中またはそれ以下の値が90 番目のパーセンタイル。 それは少なすぎます。 いずれの場合において-図中の赤いバーで示さとおりに-それは不利な証拠であろうこの間隔内にあるパーセンタイル。
とuの適切な選択肢を見つける1つの方法は、必要に応じて検索することです。これは、対称的な近似間隔で開始し、lとuの両方を最大2まで変化させて、適切なカバレッジの間隔を検索する方法です(可能な場合)。コードで示しています。前の例の正規分布のカバレッジをチェックするように設定されています。その出力はR
シミュレーションの平均カバレッジは0.9503でした。予想カバレッジは0.9523
シミュレーションと期待の間の一致は優れています。
#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
#
# Search over a small range of upper and lower order statistics for the
# closest coverage to 1-alpha (but not less than it, if possible).
#
u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
l <- qbinom(alpha/2, n, q) + (-2:2)
u[u > n] <- Inf
l[l < 0] <- -Inf
coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
i <- which(coverage == min(coverage[coverage >= 1-alpha]))
i <- i[1]
#
# Return the order statistics and the actual coverage.
#
u <- rep(u, each=5)[i]
l <- rep(l, 5)[i]
return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100 # Sample size
q <- 0.90 # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4),
"; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
導出
まず、経験累積分布関数の漸近分布が必要です。
ここで、inverseは連続関数であるため、デルタ法を使用できます。
ここで、上記のデルタ法を適用します。
以来
次に、信頼区間を作成するには、上記の分散の各項の対応するサンプルをプラグインして標準誤差を計算する必要があります。
結果