ブートストラップサンプルの平均とサンプルの統計


18

サンプルと、このサンプルのスタスティック(平均など)のブートストラップサンプルがあるとします。我々はすべて知っているように、このブートストラップサンプルは推定標本分布統計の推定のを。χ

さて、このブートストラップサンプルの平均は、元のサンプルの統計よりも母集団統計のより良い推定値ですか?どのような条件下でそれが当てはまりますか?


2
ブートストラップサンプルの平均値は、あるサンプルの平均値と、あなたは、この場合には、ブートストラップサンプルを必要としません。
西安

1
@ Xi'anに感謝します。ブートストラップサンプルの平均は、サンプルの平均と数値的に異なる場合があります。この2つはまだ理論的に同等であると言いたいですか?両端で確認できますか?
アメリオバスケスレイナ

2
用語を明確にしましょう。「ブートストラップサンプル」は、データからの特定の置換サンプルを指すか、そのようなサンプルが1つの実現と見なされる(多変量)ランダム変数を指す場合があります。実現の平均はデータの平均と異なることがありますが、@ Xi'anは、確率変数の平均(定義により母平均のブートストラップ推定)が一致する必要があるというより関連性の高い観測を提供しますデータの平均で。
whuber

1
その場合、あなたの質問はstats.stackexchange.com/questions/126633/…とほぼ同じです。唯一の違いは、ブートストラップのサンプルの実現が重複する可能性があることですが、そこでの回答で与えられた分析はブートストラップの状況に簡単に引き継がれ、同じ結果が得られます。
whuber

1
@whuberの接続が表示されますが、ブートストラップには「置換のあるサブセット」があり、実現は重複する可能性があります。ブートストラップで再サンプルを取得するために使用される分布(たとえば、疑似ランダム性)も、ブートストラップサンプルからの推定値のバイアスに影響を与える可能性があることを想像します。おそらく、答えは、すべての実際的な問題について、違いはごくわずかであるということです。これが問題の後にあるものです。条件、微妙さ、実際の違いです。
アメリオバスケスレイナ

回答:


19

問題の核心に焦点を当てるように、一般化しましょう。疑問を残さないように、私は最も細かい詳細を綴ります。分析に必要なものは次のとおりです。

  1. 一連の数値z 1z m算術平均は、次のように定義されます。z1zm

    1mz1++zm
  2. 期待は線形演算子です。 場合すなわち、ランダム変数であり、α iは数値であり、次いで、線形結合の期待が期待の線形組み合わせです、Z=1mα

    Eα1Z1++αmZm=α1EZ1++αmEZm

ましょ試料でB 1... BのKデータセットから得られたX = X 1... xはn個取ることによってk個から均等要素をX交換に。ましょう、M Bのの算術平均であるB。これはランダム変数です。それからBB1Bkバツ=バツ1バツnkバツmBB

EmB=E1kB1++Bk=1kEB1++EBk

期待の線形性が続きます。要素ので、全て同じやり方で得られ、それらはすべて同じ期待、持っているBの発言権:Bb

EB1==EBk=b

これにより、前述の内容が単純化されます。

EmB=1kb+b++b=1kkb=b

定義上、期待値は確率加重された値の合計です。各値は、選択される確率が1 / nであると想定されるため、バツ1/n

EmB=b=EB1=1nバツ1++1nバツn=1nバツ1++バツn=バツ¯

データの算術平均。

、質問に答えるためにいずれかを使用したデータは、平均場合集団平均値を推定するために、その後、ブートストラップ平均は(ケースであるK = N)も等しくˉ X、したがってある同じ集団の平均の推定として。バツ¯k=nバツ¯


データの線形関数ではない統計の場合、同じ結果が必ずしも保持されるとは限りません。ただし、単にデータの統計値をブートストラップ平均に置き換えるのは間違っています。これはブートストラップの仕組みではありません。代わりに、ブートストラップ平均をデータ統計と比較することにより、統計のバイアスに関する情報を取得します。これを使用して、元の統計を調整してバイアスを除去できます。したがって、バイアス補正された推定値は、元の統計とブートストラップ平均の代数的組み合わせになります。詳細については、「BCa」(バイアス補正および高速化されたブートストラップ)および「ABC」を参照してください。 ウィキペディアにはいくつかの参照があります。


ブートストラップ平均の期待値はデータ平均に等しいということですか?ブートストラップは、それ自体が(元の)データサンプルによって決定されないことを意味します。
カピバラ

@ user2429920ブートストラップ平均は、サンプルによって決定される統計です。この意味で、それは標本平均と同一です。その期待は、サンプリング分布の意味でとられます。置換を伴うサブサンプリングを繰り返してブートストラップ平均を計算するプロセスとは異なる意味で「期待」を使用しているのではないかと思います。
whuber

1
最後の段落はこの質問に対する実際の答えだと思います。これは一般的なものであり、平均統計だけに焦点を当てているわけではないからです。OPが行ったのと同じ疑いがあり、BCaの存在を知りませんでした。この回答のデモンストレーションはあまり役に立ちませんでしたが(平均値を統計として使用していません)、最後の段落は問題の核心について非常に明確でした。西安の答えは、平均統計が使用されている場合にも当てはまると思うので、同じ問題です。ありがとうございました!
ガブリエル

1
@ガブリエルの良い点。私は記録をチェックしました。編集する前に、この質問はもともと平均についてのみ尋ねました。それが、答えがその統計に非常に焦点を当てているように見える理由です。
whuber

9

ブートストラップ分布は以下のように定義されているので、F NX = 1

F^nバツ=1n=1nバツバツバツイイドFバツ
EF^n[バツ]=1n=1nバツ=バツ¯n
EF^n[バツ]バツ¯n

2
+1これはもともと私が書きたかった答えですが、読者によっては不透明すぎるかもしれないと恐れていました。それにもかかわらず、私はそれがとてもエレガントに提示されるのを見てうれしいです。ただし、最後の文であなたが何を意味するのかわかりません。シミュレートされた近似の「期待値」をその「限界」から平均値と区別するように見えます。 )、実際に取る制限はありません。
whuber

@whuber:コメントをありがとうございます。あなたの答えを正確に書いてすみません。あなたの説明は、ブートストラップの初心者にとって確かに読みやすいです。最終文を修正しましたが、その制限部分は多数の法則です。
西安

3
その最後の文での「平均」の使用は非常にあいまいです!あなたのLLNの手がかりからそれを理解しました。ブートストラップ分布の有限シミュレーションでは、シミュレーションの各サンプルが独自の平均を生成します(「平均」の意味が1つあります)。特定のシミュレーションにおけるこれらすべてのサンプルの平均は、シミュレーション平均を生成します(別の意味があります)。シミュレーション平均は、ブートストラップ平均(3番目の意味)であるシミュレーションサイズが大きくなるにつれて定数に収束し、これはサンプル平均(4番目の意味)に等しくなります。(そして、これ平均を推定します -5番目の意味です!)
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.