背景: 重い裾の分布でモデル化したいサンプルがあります。観測値の広がりが比較的大きいなど、いくつかの極端な値があります。私の考えはこれを一般化されたパレート分布でモデル化することでしたので、私はそれを行いました。ここで、私の経験的データ(約100データポイント)の0.975分位点は、データに当てはめた一般化パレート分布の0.975分位点よりも低くなっています。さて、この違いが気になるものかどうかを確認する方法はあるのでしょうか。
分位数の漸近分布は次のように与えられることがわかります。
だから私は、データのフィッティングから得たのと同じパラメーターで一般化されたパレート分布の0.975分位の周りに95%の信頼帯をプロットしようとすることで私の好奇心を楽しませるのは良い考えだと思いました。
ご覧のとおり、ここでは極端な値を処理しています。また、分散が非常に大きいため、密度関数の値は非常に小さく、信頼帯は上記の漸近正規性公式の分散を使用してのオーダーになります。
したがって、これは意味がありません。正の結果のみの分布があり、信頼区間には負の値が含まれています。ここで何かが起こっています。私は0.5分位の周りのバンドを計算すると、バンドがでないことを、巨大な、まだ巨大な。
これが別の分布、つまり分布とどのように関係するかを見ていきます。分布から観測をシミュレートし、変位値が信頼帯内にあるかどうかを確認します。これを10000回実行して、信頼帯内にあるシミュレーションされた観測値の0.975 / 0.5変位値の比率を確認します。
################################################
# Test at the 0.975 quantile
################################################
#normal(1,1)
#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.975)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
#################################################################3
# Test at the 0.5 quantile
#################################################################
#using lower quantile:
#normal(1,1)
#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.7)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
編集:私はコードを修正しました、そして両方の分位数はn = 100とおよそ95%のヒットを与えます。標準偏差をに上げると、バンド内にヒットがほとんどありません。したがって、問題はまだ残っています。
EDIT2:私は、私が参考に紳士のコメントで尖ったアウトとして、上記の最初のEDITに記載のものを撤回します。これらのCIは正規分布に適しているようです。
観測された分位が特定の候補分布である可能性があるかどうかを確認したい場合、次数統計のこの漸近的正規性は、使用する非常に悪い尺度ですか?
直感的には、分布の分散(データを作成したと思われる、または私のRの例ではデータを作成したことがわかっている)と観測値の数の間に関係があるように思えます。1000個の観測値と大きな分散がある場合、これらのバンドは不良です。1000の観測値と小さな分散がある場合、これらのバンドはおそらく意味があります。
誰かがこれを片付けてくれますか?
band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))