バイアスのブートストラップ推定はいつ有効ですか?


31

ブートストラップは推定器のバイアスの推定値を提供できるとしばしば主張されます。

もしいくつかの統計の推定値であり、そして(とブートストラップ複製である)、次いで、バイアスのブートストラップ推定値である これは非常にシンプルで強力なようで、不安にさせるほどです。 T II{1N}BIAST1t^t~ii{1,,N}

biast1Nit~it^

統計の偏りのない推定器をすでに持っていなければ、これがどのように可能かを頭に浮かぶことはできません。たとえば、推定値が観測値に依存しない定数を単に返す場合、上記のバイアスの推定値は明らかに無効です。

この例は病理学的ですが、ブートストラップの推定値が妥当であることを保証する推定器と分布についての合理的な仮定は何なのかわかりません。

正式な参考文献を読んでみましたが、私は統計学者でも数学者でもないので、何も明らかにされませんでした。

推定値がいつ有効になると予想されるかについて、だれでも概要を提供できますか?あなたが主題に関する良い参考文献を知っているなら、それも素晴らしいでしょう。


編集:

推定器の滑らかさは、ブートストラップが機能するための要件としてしばしば引用されます。変換のローカルな可逆性が必要なこともありますか?定数マップは明らかにそれを満たしていません。


2
定数推定器はその定数の不偏推定器であるため、バイアスのブートストラップ推定器はゼロです。
西安14

回答:


4

あなたが説明する問題は解釈の問題であり、妥当性の問題ではありません。定数推定器のブートストラップバイアス推定値は無効ではなく、実際には完璧です。

バイアスのブートストラップ推定は、推定器の間であるθ = S X と、Aパラメータθ = T F ここで、Fは、いくつかの未知の分布であり、xはから試料Fを。関数t F は、母集団が手元にある場合に原理的に計算できるものです。いくつかの時間は、我々が取るS X = T Fプラグインの推定値T θ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^),経験分布使っ Fの代わりにしますt(F)F^。これはおそらくあなたが上で説明したものです。全ての場合において、バイアスのブートストラップ推定は、 bは、I sはF = E F [ S X *] - T FFX *からのブートストラップサンプルである X

biasF^=EF^[s(x)]t(F^),
xx

定数完璧なプラグインで同じ定数の推定値である。c 人口はおよびサンプル F近似し、経験分布、Fをt F = cを評価できれば、cが得られます。あなたはプラグインを推定計算するとT Fを= cをあなたにも取得Cを。ご想像のとおり、バイアスはありません。FF^Ft(F)=cct(F^)=cc

プラグイン推定に偏りがある周知のケース従って、ベッセルの補正を分散を推定することです。以下にこれを示します。ブートストラップバイアスの推定値はそれほど悪くありません。 t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

代わりに、を母平均とし、s x = cとすることができます。ほとんどの場合、明確なバイアスがあるはずです。 t(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

ここでも、ブートストラップの推定値はそれほど悪くありません。


t

私はあなたの答えとデモが好きですが、あなたの定義は正しいとは思いません。「バイアスのブートストラップ推定値は、サンプルの関数と母集団で評価された同じ関数との間のバイアスの推定値です」記述内容は明確ですが、これが定義である場合、ブートストラップを使用して、母分散の推定量として、たとえばサンプル分散のバイアスを推定する方法はありません。
DavidR

@DavidRあなたは正しい、コメントしてくれてありがとう。答えを更新しました。
einar

私はこの記事が大好きです!私の唯一の質問は、「バイアスのブートストラップ推定」です。あなたが書いたのは、推定値の実際のバイアスだと思います(ただし、実際の分布ではなく経験的な分布の場合です)。ブートストラップ推定器は、Bブートストラップサンプルの有限和になると思いますか?
DavidR

1
t(F^)θs()FEF^[s(x)]

3

あなたは一つの間違いを犯し、それが混乱の原因かもしれません。あなたは言う:

私の推定量が観測とは独立した定数を単に返す場合、上記のバイアスの推定は明らかに無効です

ブートストラップは、メソッドがどれだけ偏っているのかではなく、 、データが偏っている場合に、ある関数によって得られた結果のです。

データを分析するために適切な統計手法を選択し、この手法のすべての前提条件が満たされ、数学を正しく実行した場合、統計手法は取得可能な「最良の」推定値を提供するはずです。 、データを使用してします

ブートストラップの考え方は、母集団からケースをサンプリングしたのと同じ方法でデータからサンプリングすることです。つまり、サンプリングの一種の複製です。これにより、値の近似分布(Efronsの単語を使用)を取得できるため、推定値のバイアスを評価できます。

しかし、私が主張するのは、あなたの例は誤解を招くものであり、ブートストラップを議論するための最良の例ではないということです。双方に誤解があったので、私の答えを更新し、より正式な方法でそれを書いて私のポイントを説明しましょう。

θ^θ

bias(θ^n)=Eθ(θ^n)θ

ここで:

θ^n=g(x1,x2,...,xn)

g()

ラリー・ワッサーマンが著書「すべての統計」で述べているように


θ^nθθ^nPθ

xg(X)=λθλλ=θ)。

θ^nθn


5
この答えは混乱を招きそうだと思います。定数推定量は、ほとんどの定義による推定量であり、場合によっては許容できる推定量です。あなたの質問は、サンプリングバイアスと推定バイアスを混同します。これは、ほとんどすべての読者を混乱させます。「可能な限り最良の推定値」に関するあなたの段落は素晴らしいですが、それは「最良の」測定方法の本質的な質問を請います。バイアスはその1つのコンポーネントにすぎません(もしあれば)。
whuber

私はOPに答えるのに十分な資格はありませんが、私はWhuberがポイントを持っていることを恐れています。また、母集団を推定量と呼ぶことは有効ですか?最後の文に関連して、boostrapはサンプリング方法の推定値ではなく、分析中の推定量のバイアスの推定値を提供すると思います。
ムゲン14

ブートストラップは系統的なエラーを検出できないことを理解していますが、少なくともある程度は統計的なバイアスを検出することになっています。あなたのポイントは、2つを区別することの微妙さについてだと思いますが、それはまだ私には不明です。あなたは私が聞いたことのないバイアスの概念について話しているようです-推定量ではなく、データのことです。このバイアスの概念の正式な定義は何ですか?
ブートストラップ

3
λθ λθ

8
θ^0n<10100

3

あなたの式は間違っていると思います。最後t 帽子ではなく星が必要です:

bast1Ntt

推定値ではなく、経験的分布で評価された実際の統計(元のサンプルが有限集合であるため、これはしばしば簡単です)を使用します。場合によっては、これらは同じかもしれません(たとえば、経験的平均はサンプル平均と同じです)が、一般的には同じではありません。それらが異なる場合を1つ挙げましたが、病理学的ではない例として、通常の分散の不偏推定量があります。これは、有限分布に適用した場合の母分散とは異なります。

統計が t経験的分布では意味がありません(たとえば、連続分布を想定している場合)。バニラブートストラップは使用しないでください。経験的分布をカーネル密度推定値(スムーズブートストラップ)に置き換えることができます。または、元の分布が特定のファミリにあることがわかっている場合は、経験的分布をそのファミリから推定される最大推定値(パラメータブートストラップ)に置き換えることができます。

TL / DR:ブートストラップ方式は魔法ではありません。バイアスの不偏推定値を取得するには、対象のパラメーターを有限分布上で正確に計算できる必要があります。


1
あなたの記法の意味がわかりません。することにより、これらの講義ノートによると、ピート・ホール(カリフォルニア大学デービス校)、これらの講義ノートによるコスマ・シャリッチ(CMU)、およびこのページエフロンさんとTibshiraniの本のは、何が私がI、すなわち(ただ、完全に一般的ではない、それは間違っていないことを示しているように見えますここでプラグイン推定器を使用していますが、それは必須ではありません)。
ブートストラップ

EfronとTibshiraniは、異なる表記法で、私と同じ式を与えます。ピートホールは、t=t^:11ページで、彼は θF1 (これは私が呼んだものです tθ^コメントなし。セクション2.2のピボットに関するCosma Shaliziの議論も、暗黙のうちにt^ はの実際の値です t 経験的分布(t)。あなたの混乱はすべて、これらの講義ノートのずさんなせいが原因だと思います。
エヴァンライト14

十分ですが、表記法が問題を解決したり、質問に対処したりするとは思いません。特に、定数推定器が故障しなければならないことを知っています(ブートストラップは魔法ではありません)。分散の例は、次のことを仮定しても機能します。t=t^(つまり、ブートストラップバイアス推定が機能します)。他の統計のための他の推定量はどうですか?ブートストラップバイアス推定が機能するための十分な条件は何ですか?定数推定器はこれらの条件にどのように違反しますか?
ブートストラップ14

1
それが私のポイントです。この修正版は、定数推定器に対しても正しい答えを提供します。母平均を推定しようとしているが、常に0だけを推定する推定器を選択するとします。tなります実際のではなく0になるようにするよりも、サンプルの平均N、バイアスの推定値はサンプル平均からマイナスになります。これは妥当であり、期待される値は真のバイアスに等しくなります。
エヴァンライト14

その後、私はの定義を十分に理解していないようです t。EfronとTibshiraniの定義(上記リンク先のページ)は、それが経験的分布に基づいたプラグイン推定であることを暗示しているようですが、その運用上の意味は私を逃れました。非線形関数に適合させたい高次元データがあり、非線形関数パラメーターの推定値にバイアスがかかっているかどうかを知りたいとします。なにtこの場合?の定義t 私には明らかなようですが、 t 漠然としている。
ブートストラップ14

0

ブートストラップ手順について、それらが動作するディストリビューションの機能の観点から考えると便利です。この回答では、別のブートストラップの質問に対する例を示しました。

あなたが与えた見積もりはそれが何であるかです-見積もり。統計的推定値が持つ可能性のある問題に苦しんでいないという人はいません。たとえば、サンプル平均のバイアスのゼロ以外の推定値が得られます。これは、最初から偏りがないことがわかっています。このバイアス推定器の1つの問題は、ブートストラップがすべての可能なサブサンプルの完全な列挙ではなく、モンテカルロとして実装された場合にサンプリングのばらつきに悩まされることです(とにかく実際にその理論的なブートストラップはありません)。

そのため、ブートストラップのモンテカルロ実装は修正不可能であり、別のブートストラップスキームを使用する必要があります。デイヴィソン他 al。(1986)ランダムな描画を制限して、バランスの取れたサンプルを生成する別のブートストラップスキームを作成する方法を示しました。B ブートストラップが複製され、元の各要素を正確に使用する必要があります B一次残高の時間。(推定量の2番目の瞬間によりよく機能する2次バランスは、Graham et。al。(1990)によってさらに議論されています。)


7
Bootstrappedの最初の質問は、モンテカルロの変動性の問題と直交していると思います。ブートストラップ複製の数を無限にした場合でも、問題の式は定数推定器のバイアスのゼロ推定値を与え、分散の通常の不偏推定値のバイアスの非ゼロ推定値を与えます。
エヴァンライト14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.