ECDFの信頼区間


8

ドボレツキー-キーファー-ウォルフォウィッツの不等式は次のとおりです。

Pr(sup|F^n(x)F(x)|>ϵ)2exp(2nϵ2)

そして、経験的に決定された分布関数が、経験的なサンプルが抽出される分布関数にどれだけ近いかを予測します。この不等式を使用して、我々は信頼区間を描画することができ(CIさん)の周りにあるF NX (関数ecdf)。しかし、これらのCIはECDFのすべての点の周囲で距離が等しくなります。F^n(x)

ECDFの周りにCIを構築する別の方法はありますか?

順序付き統計について読むと、順序付き統計の漸近分布は次のようになります。

ハイパーリンクからの数式

さて、最初に、これらの記号の付いたインデックスは何を意味しますか?np

主な質問:ECDFにCIを提供するために、この方法をデルタ法(下記参照)と一緒に使用できますか?つまり、ECDFは順序付けられた統計の関数です。しかし、同時にECDFはノンパラメトリック関数なので、これは行き止まりですか?

我々はそれを知っている及び ヴァーF NX = F X 1 - F X E(F^n(x))=F(x)Var(F^n(x))=F(x)(1F(x))n

ここで何が得られているのかが明確になり、助けに感謝します。

編集

デルタ方法:あなたは、ランダムな変数の順序がある場合は満たしますXn

ここに画像の説明を入力してください

そして、σ 2は、有限その後、以下が満たされています。θσ2

ここに画像の説明を入力してください

が存在し、ゼロ以外の値であり、確率変数で多項的に束縛されているという特性を満たす任意の関数g (wikipediaの引用)g(θ)


1
npnpX(i)iii=npX(np)

F^n(x)


CIを計算する方法は、私が正しく理解していれば、コルモゴロフ-スミルノフ統計に基づいていますか?私もそれを調べることができます!ありがとう!
Erosennin 2015年

1
pnp=ipnnp

回答:


4

デルタ方式の使い方はわかりませんが...

経験的分布関数の収束について読むと、中心極限定理によって次のことが得られることがわかります。

n(F^n(x)F(x))N(0,F(x)(1F(x)))

F^n(x)

F^n(x)±1.96F^n(x)(1F^n(x))n

E(F^n(x))=F(x)F^n(x)F(x)

次のRコードを使用します。

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

我々が得る:

青= KWDバンド、赤= CLTバンド

(CLTメソッドからの)赤いバンドは、より狭い信頼バンドを提供することがわかります。

編集:@Kjetil B Halvorsenが指摘したように-これらの2つのタイプのバンドは異なるタイプです。@Glen_bに彼の意味を正確に説明してもらいました。

非常に異なる種類の信頼帯。点ごとの信頼帯を使用すると、たとえそれがデータの抽出元の分布であったとしても、帯の外側に多数の点が予想されます。同時バンドではそうはいきません。95%のポイントワイズバンドがある場合、正しい分布のポイントの平均5%がバンドの外側になります。同時バンドでは、偏差が最大のポイントが外側になる可能性が5%あります。

両方に感謝します!


この方法がDKW不等式またはKS統計の使用よりも好ましくないのはなぜですか?私はこれまで誰もこのように信頼帯を構築するのを見たことがありません...
Erosennin '18

1
x

ϵ

はい、このように最大値を使用することで、同時に有効な信頼帯が得られます。
kjetil b halvorsen 2015年

2
ここで興味深い議論。個別のCDF間隔をWikipediaに追加し、これらの方法の違いに関するいくつかの議論を行いました。間隔をより具体的に説明するために、DKWページも更新しました。見て、どちらかのサイトのページやPM私に更新すること自由に感じ en.wikipedia.org/wiki/...の en.wikipedia.org/wiki/...を
BSCAN
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.