元のサンプルよりも小さいブートストラップサンプルを使用できますか?


12

ブートストラップを使用して、N = 250の企業とT = 50か月のパネルデータセットから推定パラメーターの信頼区間を推定したいと思います。パラメータの推定は、カルマンフィルタリングと複雑な非線形推定を使用するため、計算コストがかかります(数日間の計算)。したがって、M = N = 250会社のB(数百以上)のBサンプルを元のサンプルから描画し、パラメーターBを推定することは、これがブートストラップの基本的な方法であっても、計算上実行不可能です。

したがって、元の会社からの置き換えでランダムに描画されたブートストラップサンプルに小さいM(たとえば10)を使用し、モデルパラメータのブートストラップ推定共分散行列をスケーリングすることを検討しています(上記の例では1/25)で、完全なサンプルで推定されたモデルパラメーターの共分散行列を計算します。1NM

次に、望ましい信頼区間は、正規性の仮定に基づいて概算できます。または、同様の手順を使用してスケーリングされた小さいサンプルの経験的な信頼区間(たとえば、係数で縮小できます。1NM

この回避策は意味がありますか?これを正当化する理論的な結果はありますか?この課題に取り組むための代替手段はありますか?

回答:


4

この質問はずっと前に尋ねられましたが、誰かが将来それを発見した場合に備えて、私は回答を投稿しています。つまり、答えは「はい」です。これは多くの設定で実行でき、サンプルサイズの変化をで修正することは正当化されます。このアプローチは通常からのブーストラップと呼ばれ、「従来の」ブートストラップが行うほとんどの設定と、そうでない一部の設定で機能します。MNMN

その理由は、多くのブートストラップ整合性引数がの形式の推定量を使用するためです。ここで、はランダム変数で、は基礎となる分布。たとえば、標本平均の場合、およびです。1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

多くのブートストラップ整合性の証明は、、有限のサンプルおよび関連する点推定。 ここで、は実際の基になる分布から描画され、はからの置き換えで描画されます。N{x1,,xN}μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

ただし、長さ短いサンプルを使用して、推定量を考慮する こともでき それとして、ことが判明推定()しているが(ほとんどの設定で上記と同じ制限分布をだ)は保持され、一部は保持されません。この場合、()と()は同じ限界分布を持ち、サンプルの標準偏差などの補正係数にます。M<N

(2)M(TM(X1,,XM)μ^N).
M,N2112MN

これらの引数はすべて漸近的であり、制限のみ保持されます。これを機能させるには、小さくしすぎないことが重要です。最適なを関数として選択し て最良の理論結果を得る方法については、いくつかの理論があります(ただし、以下のBickel&Sakovなど)。ただし、計算リソースが決定要因になる場合があります。M,NM MN

直感的には、多くの場合、をとすると、 は、およびのブートストラップからようなものと考えることができます(表記の混乱を避けるために小文字を使用しています) )。このように、 out ofブートストラップを使用して()の分布をエミュレートすることは、従来の( out ofμ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=MNM<NNN3MNM<NNN)親切。あなたの場合の追加のボーナスは、評価するための計算コストが少ないことです。

あなたが言うように、ポリティスとロマーノがメインの論文です。Bickel et al(1997)も、からブートストラップの概要について説明しています。MN

出典

PJ Bickel、F Goetze、WR van Zwet。1997.観測未満のリサンプリング:利益、損失、損失の救済。Statistica Sinica。n

PJビケル、サコフ。選択に2008でのouf極値のためのブートストラップおよび信頼限界。Statistica Sinica。mmn


3

トピックについてさらに読んだ後、「サブサンプリング」の下に確立された理論があり、このタイプの信頼区間推定を行うことができるようです。重要な参照は、「Politis、DN; Romano、JP(1994)。大規模なサンプル信頼領域は、最小の仮定の下でのサブサンプルに基づいています。Annalsof Statistics、22、2031-2050」。

アイデアは、M <Nサイズのサンプルを、各サンプルの「置き換えなし」で(ただし、サイズBの異なるサンプル全体で置き換えて)、N個の初期データポイント(私の場合は系列)から描画し、次の信頼区間を推定することです。これらのサンプルと一般的なブートストラップ法を使用して対象のパラメーター。次に、Mの変化に伴うパラメーターの基になる分布の分散の変化率に基づいて信頼区間をスケーリングします。この率は、多くの一般的な設定で1 / Mですが、いくつかの異なるMで手順を繰り返すと、経験的に推定できます。値を確認し、パーセンタイル間の範囲のサイズの変化を確認します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.