ブートストラップを使用して1パーセンタイルのサンプリング分布を取得する


9

母集団からのサンプル(サイズ250)があります。人口の分布はわかりません。

主な質問:母集団の1パーセンタイルの点推定が必要です。次に、点推定の周りに95%の信頼区間が必要です。

私の点推定値は、サンプル1になり番目のパーセンタイル。私はそれをと表します。x

その後、ポイント推定値の周囲に信頼区間を構築しようとします。ここでブートストラップを使用するのは理にかなっているのでしょうか。私はブートストラップに非常に慣れていないので、適切な用語を使用できない場合などはご容赦ください。

ここに私がそれをやろうとした方法があります。元のサンプルから置き換えて、ランダムなサンプルを1000個描画します。それぞれから1パーセンタイルを取得します。したがって、私は1000ポイントを持っている- "1 stは -percentiles"。これらの1000ポイントの経験的分布を見てみましょう。その平均ます。次のように「バイアス」を示します:。私は2.5とり番目のパーセンタイルと97.5 番目の下、私は1の周りの95%信頼区間と呼ぶもののハイエンド得るために、1000ポイントのパーセンタイルをSTパーセンタイル元のサンプルのを。これらの点をおよびます。xmeanbias=xmeanxx0.025x0.975

最後のステップは、この信頼区間を、元のサンプルの1パーセンタイル付近ではなく、母集団の1パーセンタイル付近になるように調整することです。したがって、を下限とし、を上限とします人口の1つの点推定値の周りの95%信頼区間の番目のパーセンタイル。この最後のインターバルが私が求めていたものです。xbias(xmeanx0.025)xbias+(x0.975xmean)

重要な点は、私の意見では、それは1つのために使用するブートストラップに理にかなっているかどうかであるSTのかなり近い人口の未知の根本的な分布のテールにあるパーセンタイル。問題があるのではないかと思います。ブートストラップを使用して、最小値(または最大値)の信頼区間を構築することを検討してください。

しかし、おそらくこのアプローチには欠陥がありますか?私にお知らせください。

編集:

もう少し問題についての考えを持って、私は私の解決策は、以下のことを意味していることがわかり:経験1 番目のパーセンタイル元のサンプルの1の偏った推定かもしれSTパーセンタイル人口の。もしそうなら、ポイント推定はバイアス調整されるべきです:。そうでない場合、バイアス調整された信頼区間は、バイアス未調整のポイント推定と互換性がありません。ポイント推定値と信頼区間の両方を調整するか、どちらも調整しない必要があります。xbias

一方、見積もりにバイアスをかけることを許可しなかった場合は、バイアス調整を行う必要はありません。つまり、をポイント推定値として、を下限として、を95%の上限として信頼区間。この間隔が意味を成しているかどうかはわかりません...xx(xmeanx0.025)x+(x0.975xmean)

だから、サンプル1と仮定することは何の意味も持たないSTはパーセンタイル人口1の偏った推定値である番目のパーセンタイル?そうでない場合、私の代替ソリューションは正しいですか?


これは、直接ブートストラップの質問には対応していませんが、それはあなたに役立つことができますonlinecourses.science.psu.edu/stat414/node/231
shadowtalker

回答:


11

ディストリビューションの両極端のブートストラップ推論は、一般的に疑わしいものです。サイズのサンプルのn-out-of-nの最小値または最大値をブートストラップする場合、サンプルの極端な観測値を再現する可能性。同様に、およそ確率で2番目の極端な観測値を再現します。末尾の基になる分布の形状とはほとんど関係のない確定的な分布が得られます。さらに、ディストリビューションがこの値を下回るサポートを持っている場合でも、ブートストラップはサンプルの最小値を下回るものを与えることはできません(通常のようなほとんどの連続的なディストリビューションの場合のように)。n1(11/n)n1exp(1)=63.2%exp(1)exp(2)=23.3%

解は複雑であり、極値理論の漸近とn未満の観測値のサブサンプリングの組み合わせに依存しています(実際には、より少ない場合、レートはとしてゼロに収束するはずです)。n


答えは役に立ちますが、ブートストラップの動作に関して、1パーセンタイルが最小にどれだけ近いかを知りたいですか?非常に大きなサンプルでは、​​1番目のパーセンタイルは最小値から「遠い」と見なすことができ、上記の問題は無視できますが、小さいサンプルでは1番目のパーセンタイル自体が最小であり、問​​題は多くの問題になると思います。したがって、私たちはその中間にいます。250の観測値のサンプルサイズは、この点でかなり小さいと考えられるべきだと思います。
Richard Hardy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.