ブートストラップ分布の平均を報告してみませんか?


30

パラメータをブートストラップして標準エラーを取得すると、パラメータの分布が得られます。取得しようとしているパラメーターの結果または推定値として、その分布の平均を使用しないのはなぜですか?分布は実際の分布に近似すべきではありませんか?したがって、「実際の」値の適切な推定値を取得できますか?それでも、サンプルから取得した元のパラメーターを報告します。何故ですか?

ありがとう

回答:


24

ブートストラップされた統計は、母集団パラメーターからさらに1つ抽象化されているためです。母集団パラメーター、サンプル統計があり、ブートストラップがあるのは3番目のレイヤーのみです。ブートストラップされた平均値は、母集団パラメーターのより良い推定量ではありません。これは単なる見積もりの​​見積もりです。

として、可能なすべてのブートストラップされた組み合わせを含むブートストラップ分布は、同じ条件下で母集団パラメーターを中心としたサンプル統計のように、サンプル統計を中心にします。ここでのこのペーパーは、これらのことを非常にうまくまとめており、私が見つけることができる最も簡単なものの1つです。より詳細な証明については、参照している論文に従ってください。注目すべき例は、Efron(1979)およびSingh(1981)です。n

θBθ^θ^θ


13

ブートストラップ分布の平均を使用するケースが少なくとも1つあります:バギング(ブートストラップ集約の略)。

基本的な考え方は、推定器がデータの摂動に非常に敏感な場合(つまり、推定器の分散が大きくバイアスが低い場合)、多くのブートストラップサンプルで平均化して、特定の例をオーバーフィットする量を減らすことです。

私がリンクしているページは、これがあなたの推定にいくらかのバイアスを導入することを指摘しています。それがサンプル平均がしばしばあなたのブートストラップサンプルを平均するよりも意味をなす理由です。しかし、データの小さな変化に応じて根本的に変化する決定木や最近傍分類子のようなものがある場合、このバイアスは過剰適合ほど大きな懸念ではないかもしれません。


1
yθ

通常、応答に対する推定値の分散(つまり、データの変動に対する感度)を減らすためにバギングが使用されます。最も一般的なバギングモデル(ツリーなど)には、通常、ブートストラップサンプル間で簡単に比較できる明確なパラメーターがありません。
デビッドJ.ハリス

おかげで、まさに私もそう思っていました。私には、バギングは応答の推定以外にはあまり意味がないように思われるため、その意味で制限されています。
モモ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.