不確実性のブートストラップ推定に関する仮定


62

不確かさの推定値を取得する際のブートストラップの有用性は高く評価されますが、それについて常に悩まされることの1つは、それらの推定値に対応する分布がサンプルで定義された分布であることです。一般に、サンプル周波数が基礎となる分布とまったく同じであると信じるのは悪い考えのように思えますが、サンプル周波数が基礎となる分布を定義する分布に基づいて不確実性の推定値を導き出すのはなぜ聞こえる/受け入れられるのでしょうか?

一方で、これは私たちが通常行う他の分布の仮定よりも悪いことはないかもしれませんが、正当性をもう少しよく理解したいと思います。


3
あなたが見たいと思うかもしれないいくつかの関連する質問があります。一部はこのページの横マージンにリストされています。ここでは、ブートストラップが失敗し、それが失敗することが何を意味するのかときに関するものです。
枢機

回答:


55

おそらくブートストラップを適用できる方法はいくつかあります。最も基本的な2つのアプローチは、「ノンパラメトリック」および「パラメトリック」ブートストラップと見なされるものです。2番目は、使用しているモデルが(本質的に)正しいと仮定しています。

最初のものに焦点を当てましょう。分布関数Fに従ってランダムなサンプル分布していると仮定します。(そうでなければ改変アプローチを必要とすると仮定)。うF NX = N - 1 Σ N I = 1 1X iは ≤は、X 経験的累積分布関数です。ブートストラップの動機の多くは、いくつかの事実に由来しています。X1,X2,,XnFF^nバツ=n1=1n1バツバツ

ドヴォレツキー–キーファー–ウォルフォウィッツの不等式

PsupバツR|F^nバツFバツ|>ε2e2nε2

これが示すのは、経験的分布関数が確率的に指数関数的に速い真の分布関数に均一に収束することです。実際、この不等式とBorel–Cantelliの補題は、ほぼ確実に。supバツR|F^nバツFバツ|0

この収束を保証するために、の形式に追加の条件はありません。F

発見的に、平滑な分布関数の関数に興味がある場合、が近いと予想します。T F NT F TFTF^nTF

(ポイントワイズ)不偏度F^nバツ

期待値の単純な線形性との定義により、各に対して、のxRF^nバツバツR

EFF^nバツ=Fバツ

平均興味があるとします。次に、経験的測定の不偏性は、経験的測定の線形汎関数の不偏性にまで及びます。したがって、 E F T Fの N= E F ˉ X N = μ = T F μ=TF

EFTF^n=EFバツ¯n=μ=TF

したがって、は平均して正しく、はに急速に近づいているので、(発見的)は急速に近づきます。^ F N F T Fの NT F TF^nFn^FT(F^n)T(F)

信頼区間(本質的にはブートストラップとは何ですか)を構築するために、中心極限定理、経験的分位の一貫性、およびデルタ法を、単純な線形汎関数からより複雑な統計に移行するためのツールとして使用できます。

良い参考文献は

  1. B.エフロン、ブートストラップ法:ジャックナイフの別の見方アン。統計 、vol。7、いいえ。1、1–26。
  2. B.エフロンとR.ティブシラニ、ブートストラップの紹介、チャップマン–ホール、1994年。
  3. GAヤングとRLスミス、統計的推論の要点、ケンブリッジ大学出版局、2005年、第11章
  4. AW van der Vaart、漸近統計、ケンブリッジ大学出版局、1998年、第23章
  5. P. BickelおよびD. Freedman、ブートストラップの漸近理論アン。統計 、vol。9、いいえ。6(1981)、1196–1217。

とてもいい、@ cardinal(+1)。

明確な説明、参考文献、優れた答え。
-vesszabo

12

これについて考える別のアプローチを次に示します。

真の分布がわかっている理論から始めて、真の分布からシミュレートすることでサンプル統計の特性を発見できます。これは、既知の正規分布からサンプリングして統計を計算することにより、Gossetがt分布とt検定を開発した方法です。これは、実際にはパラメトリックブートストラップの形式です。統計の動作を発見するためにシミュレートしていることに注意してください(パラメータに関連する場合もあります)。

ここで、人口分布がわからない場合、経験的分布の推定値があり、そこからサンプリングできます。(既知の)経験的分布からサンプリングすることにより、ブートストラップサンプルと経験的分布(ブートストラップサンプルの母集団)の関係を確認できます。ここで、ブートストラップサンプルから経験的分布への関係は、サンプルから未知の母集団への関係と同じであると推測します。もちろん、この関係がどれだけうまく翻訳されるかは、サンプルが母集団をどの程度代表しているかによって異なります。

母集団の平均を推定するためにブートストラップサンプルの平均を使用していないことに注意してください。そのためにサンプル平均を使用します(または、目的の統計が何であれ)。ただし、ブートストラップサンプルを使用して、サンプリングプロセスのプロパティ(スプレッド、バイアス)を推定しています。また、既知の母集団(対象の母集団の代表であることが望ましい)からのサンプリングを使用して、サンプリングの効果を学習することは理にかなっており、あまり循環的ではありません。


8

ブートストラップの主なトリック(およびスティング)は、漸近理論であるということです:無限のサンプルを開始する場合、経験的分布は実際の分布に非常に近くなり、差は無視できます。

残念ながら、ブートストラップは小さなサンプルサイズで適用されることがよくあります。一般的な感じは、ブートストラップがいくつかの非常に非漸近的な状況で動作することを示しているが、それでも注意してください。サンプルサイズが小さすぎる場合、実際にはサンプルが条件付きで真の分布の「適切な表現」であることに取り組んでいます。


それは私が考えていたようなことですが、この推論には何か循環的なものがあります。私は統計学者ではありませんが、私の感覚では、推定量が急速に収束するときに統計的推論が機能するため、サンプルが分布に収束していなくても推論は健全です。この場合、実際の分布に収束するために、私たちは専売分布全体に依存しています。一部のブートストラップ推定値はすぐに収束するという定理があるかもしれませんが、一般に、そのような定理に訴えることなくブートストラップが適用されているのがわかります。
user4733

4
明らかな循環推論は、ブートストラップと呼ばれた理由です。人々は自分のブートストラップで自分を持ち上げようとしているように感じました。後にエフロンは、それが実際に機能することを示しました。
グレッグスノー

サンプルサイズが非常に小さい場合は、yuoが使用する方法にかかわらず、多くの信頼が必要です...
kjetil b halvorsen

5

私は、「漸近的に、経験的分布は実際の分布に近い」という観点からではなく(もちろん、非常に真実です)、「長期的な観点」から論じます。言い換えれば、特定の場合、ブートストラップによって導出された経験的分布はオフになります(この方法であまりにも遠くにシフトしたり、その方法であまりにも遠くにシフトしたり、時々このように歪んだり、時にはそのように歪んだりします)が、平均して実際の分布の適切な近似になります。同様に、ブートストラップ分布から導き出される不確実性の推定値は、特定のケースではオフになりますが、再び、平均して(ほぼ)正しくなります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.