重い裾の分布の順序統計量の漸近正規性


9

背景: 重い裾の分布でモデル化したいサンプルがあります。観測値の広がりが比較的大きいなど、いくつかの極端な値があります。私の考えはこれを一般化されたパレート分布でモデル化することでしたので、私はそれを行いました。ここで、私の経験的データ(約100データポイント)の0.975分位点は、データに当てはめた一般化パレート分布の0.975分位点よりも低くなっています。さて、この違いが気になるものかどうかを確認する方法はあるのでしょうか。

分位数の漸近分布は次のように与えられることがわかります。

分位点の漸近正規性

だから私は、データのフィッティングから得たのと同じパラメーターで一般化されたパレート分布の0.975分位の周りに95%の信頼帯をプロットしようとすることで私の好奇心を楽しませるのは良い考えだと思いました。

GPD

ご覧のとおり、ここでは極端な値を処理しています。また、分散が非常に大きいため、密度関数の値は非常に小さく、信頼帯は上記の漸近正規性公式の分散を使用してのオーダーになります。±1012

±1.960.9750.025n(fGPD(q0.975))2

したがって、これは意味がありません。正の結果のみの分布があり、信頼区間には負の値が含まれています。ここで何かが起こっています。私は0.5分位の周りのバンドを計算すると、バンドがでないことを、巨大な、まだ巨大な。

これが別の分布、つまり分布とどのように関係するかを見ていきます。分布から観測をシミュレートし、変位値が信頼帯内にあるかどうかを確認します。これを10000回実行して、信頼帯内にあるシミュレーションされた観測値の0.975 / 0.5変位値の比率を確認します。N(1,1)n=100N(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

編集:私はコードを修正しました、そして両方の分位数はn = 100とおよそ95%のヒットを与えます。標準偏差をに上げると、バンド内にヒットがほとんどありません。したがって、問題はまだ残っています。σ=1σ=2

EDIT2:私は、私が参考に紳士のコメントで尖ったアウトとして、上記の最初のEDITに記載のものを撤回します。これらのCIは正規分布に適しているようです。

観測された分位が特定の候補分布である可能性があるかどうかを確認したい場合、次数統計のこの漸近的正規性は、使用する非常に悪い尺度ですか?

直感的には、分布の分散(データを作成したと思われる、または私のRの例ではデータを作成したことがわかっている)と観測値の数の間に関係があるように思えます。1000個の観測値と大きな分散がある場合、これらのバンドは不良です。1000の観測値と小さな分散がある場合、これらのバンドはおそらく意味があります。

誰かがこれを片付けてくれますか?


2
バンドは漸近正規分布の分散に基づいていますが、漸近正規分布の標準偏差に基づいている必要があります(band = 1.96 * sqrt((0.975 * 0.025)/(100 *(f_norm)^ 2))、同様に、一般化されたパレート距離についても同様です。)代わりにそれを試して、何が起こるかを確認してください。
jbowman

@jbowman指摘してくれてありがとう!直します!
Erosennin 2015

バンドを小さくする@jbowmanと、実際のヒット数が少ないRコードの例では。これもまた別のエラーで、計算が間違っていましたが、今は修正しました。あなたは私をそれに導いたので、私はそれをとても感謝しています!GDPの場合の小さいバンドは非常に朗報ですが、それでも非常に大きいため、使用することはできません。サンプルサイズと分散の関係は、サンプルサイズだけではなく、大規模であるべきだということ以外に、私はまだ他のポイントを見つけることができません。
Erosennin

心配ない!最初の式の前にが正しくあることに気づきました。のように両側をそれで除算すると、それが役立つ場合があります。申し訳ありませんが、初めて通じました。(多分あなたもこれを修正しましたが、質問の関連部分を更新していません。)(n)band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
jbowman

1
はい、そうです、私は注意を払いませんでした。OTOH、コードを実行して、どこでもsd = 1からsd = 2に変更すると、0.975分位点で両方の時間でほぼ同じヒット率が得られます。それぞれ0.9683と0.9662です。実行のどこかでsd = 1を逃したのかしら?σ=2
jbowman

回答:


3

あなたの派生はこのページにあるようなものから来ていると思います

正の結果のみの分布があり、信頼区間には負の値が含まれています。

まあ、理にかなっている通常の近似を考えると。通常の近似が負の値を与えることを妨げるものは何もありません。そのため、サンプルサイズが小さい場合や分散が大きい場合、境界値の悪い近似になります。サンプルサイズを大きくすると、サンプルサイズが間隔の幅の式の分母にあるため、間隔は縮小します。分散は密度を介して問題に入ります。同じ平均の場合、分散が大きくなると、密度が異なり、マージンが高くなり、中心付近が低くなります。密度が式の分母内にあるため、密度が低いほど信頼区間が広くなります。

少しグーグルでこのページが見つかりました。このページでは、二項分布の正規近似を使用して信頼限界を構築しています。基本的な考え方は、各観測値が確率qの分位点を下回るため、分布は二項分布になるということです。サンプルサイズが十分に大きい場合(これは重要です)、二項分布は、平均と分散正規分布によってよく近似されます。したがって、信頼下限はインデックスとなり、信頼上限はインデックスます。可能性があることのいずれかかN 、Q 1 - Q J = N Q - 1.96 nqnq(1q) K=NQ-1.96j=nq1.96nq(1q) k>nj<1k=nq1.96nq(1q)k>nj<1エッジ近くの分位点を処理する場合、であり、私が見つけた参照はそのことについては触れていません。私は最大値または最小値を関連する値として扱うことにしました。

次のコードの書き直しで、私は経験的データに信頼限界を構築し、理論的な分位がその内部にあるかどうかを確認するためにテストしました。観測されたデータセットの分位数は確率変数であるため、これは私にはより理にかなっています。n> 1000のカバレッジは約0.95です。n = 100の場合、0.85の方が悪くなりますが、サンプルサイズが小さい尾の近くの分位点ではそれが予想されます。

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

どのサンプルサイズが「十分に大きい」かを決定する限り、まあ、大きい方が良いです。特定のサンプルが「十分に大きい」かどうかは、当面の問題と、信頼限界のカバレッジなどについてどれほどうるさいかによって大きく異なります。


貢献してくれてありがとう!絶対的な「大きな」サンプルがどのように存在するかはわかりません。そのため、分散を考慮する必要があります。これがCIを構築する私の方法にどのように関係しているのか、一般的にも興味があります。派生については、たとえば、ここに表示されます:math.mcgill.ca/~dstephens/OldCourses/556-2006/… 私が作成したCIは、そのリンクの例に従っています。「私は経験的データに信頼限界を構築しました...」と書いて、これはあなたにとってより理にかなっています。このCIについてもう少し詳しく説明してもらえますか?
Erosennin

ああ、そう、あなたは正しい派生リンクを持っていました。すみません。
Erosennin 2015

OK、もう一度編集して、分布の分散が使用している近似にどのように影響するかを正しく説明し、「大きな」サンプルの意味についてもう少し説明します。あなたのCIは理論値に集中していますが、私のCIは経験値に集中しています。私は経験的分位を理論的分位と比較するために、間隔は経験的分位で構築されるべきだと思います。また、中心極限定理を開始することに魅力がないため、私が使用した近似では「通常の」近似が1つ少なくなります。
atiretoo-モニカを2015年

努力に感謝します。おそらく私の質問がより明確になるかもしれません。密度とサンプルサイズが分散にどのように影響するかはすでにわかっています。それが最初のポイントでした。しかし、再び、私の悪い、私はより明確だったかもしれません。分散を考慮に入れたものに切り替えるべきだと感じるのは「漸近的」です。まあ、あなたもあなたのCIを理論値の周りに集中させました。n * qは理論上の値です。あなたのバンドを構築する際、あなたは本質的に私と同じことをしましたが、異なる方法を使っています。
Erosennin 2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.