ブートストラップ法に必要なサンプルサイズの決定/提案法


33

これは、誰も実際に簡単な答えを出すことができない、かなりホットなトピックであることを知っています。それにもかかわらず、次のアプローチが役に立たないのではないかと思っています。

ブートストラップ法は、サンプルが元の母集団とほぼ同じ分布をたどる(正確に読む)場合にのみ役立ちます。これを確実にするには、サンプルサイズを十分に大きくする必要があります。しかし、十分な大きさは何ですか?

私の前提が正しければ、中央限界定理を使用して母平均を決定するときに同じ問題が生じます。サンプルサイズが十分に大きい場合にのみ、サンプル平均の母集団が正規分布(母集団平均付近)であることを確認できます。言い換えると、サンプルは母集団(分布)を十分に表す必要があります。しかし、再び、何が十分な大きさですか?

私の場合(管理プロセス:需要を完了するのに必要な時間対需要の量)私はマルチモーダル分布(2011年に終了するすべての需要)のある人口を持っています。人口よりも通常分布している(現在の日と過去の日の間で終了するすべての要求、理想的にはこのタイムスパンはできるだけ小さい)研究したい。

2011年の人口は、サンプルサイズサンプルを作成するのに十分な単位ではありません。値を選択し、 ()と仮定します。ここで、試行錯誤を行って適切なサンプルサイズを決定します。を取り、サンプル平均母集団がKolmogorov-Smirnovを使用して正規分布しているかどうかを確認します。そうであれば、サンプルサイズで同じ手順を繰り返しますが、サンプルサイズ(など)で繰り返しません。バツnバツ10バツ=10n=504060

しばらくして、2011年の母集団を多かれ少なかれ適切に表現するために、が絶対最小サンプルサイズであると結論付けました。関心のある母集団(現在の日と過去の日の間に終了するすべての要求)のばらつきが少ないことがわかっているため、ブートストラップにサンプルサイズを安全に使用できます。(間接的に、はタイムスパンのサイズを決定します:要求を完了するのに必要な時間。)n=45n=45n=4545

要するに、これは私の考えです。しかし、私は統計学者ではなく、統計学の授業がその先の日に行われたエンジニアなので、多くのゴミを生成した可能性を排除することはできません:-)。皆さんはどう思いますか?私の前提が理にかなっている場合、より大きいを選択する必要がありますか?あなたの答え次第です(恥ずかしいと思う必要がありますか?:-)さらにディスカッションのアイデアを投稿します。バツ10

最初の回答に対する回答返信いただきありがとうございます。あなたの回答は、特に本のリンクに関して非常に役に立ちました。
しかし、私は情報を提供しようとして、質問を完全に曇らせたことに不満を感じています。ブートストラップサンプルが母集団サンプルの分布を引き継ぐことを知っています。私は完全にあなたに従いますが...

元の母集団サンプルは、母集団サンプルの分布が母集団の「実際の」分布に対応する(等しい)ことをある程度確実にするのに十分な大きさである必要があります。

これは、サンプル分布が母集団分布と一致することを合理的に確認するために、元のサンプルサイズがどれだけ大きくする必要があるかを判断する方法に関する単なるアイデアです。

二峰性の人口分布があり、一方の頂点が他方の頂点よりもはるかに大きいとします。サンプルサイズが5の場合、5つのユニットすべてが大きなトップに非常に近い値を持つ可能性が高くなります(ユニットをランダムに描画する広告のチャンスは最大です)。この場合、サンプル分布はモノモーダルになります。

サンプルサイズが100の場合、サンプル分布もバイモーダルである可能性ははるかに大きくなります!! ブートストラップの問題は、サンプルが1つしかないことです(そして、そのサンプルをさらにビルドします)。サンプル分布が実際に母集団分布と一致しない場合、問題が発生しています。これは、サンプルサイズを無限に大きくすることなく、「悪いサンプル分布」の可能性をできるだけ低くするためのアイデアです。

回答:


38

この質問に興味を持ったのは、ブートストラップという言葉を見て、ブートストラップに本を書いたからです。また、「ブートストラップの結果に適切なモンテカルロ近似を得るには、ブートストラップのサンプルがいくつ必要ですか」という質問もよく寄せられます。その質問に対する私の提案された答えは、収束するまでサイズを増やし続けることです。すべての問題に当てはまる番号はありません。

しかし、それは明らかにあなたが尋ねている質問ではありません。あなたは、ブートストラップが機能するために元のサンプルサイズが何である必要があるかを尋ねているようです。まず第一に、あなたの前提に同意しません。基本的なノンパラメトリックブートストラップは、サンプルが母集団からランダムに取得されることを前提としています。だから、任意のサンプルサイズのために、ランダムに選択されたサンプルについての分布であるサンプリング分布はブートストラップで想定。ブートストラップの原理によれば、母集団からサイズランダムサンプルを選択することは、サイズブートストラップサンプルを選択することで模倣できるということです。nnn元のサンプルから。ブートストラップの原理が成り立つかどうかは、「母集団を代表するように見える」個々のサンプルに依存しません。依存しているのは、推定対象と母集団分布のいくつかの特性です(たとえば、これは、有限分散を持つ母集団分布のサンプリング手段に対して機能しますが、無限分散を持つ場合には機能しません)。人口分布に関係なく、極値の推定には機能しません。

ブートストラップの理論には、推定の一貫性を示すことが含まれます。したがって、理論的には、大規模なサンプルで機能することが示されます。しかし、小さなサンプルでも機能します。私は、2変量データの20などの小さなサンプルサイズで、分類エラー率の推定に特に効果があることを見てきました。

サンプルサイズが非常に小さい場合(たとえば4)、ブートストラップサンプルが十分に豊富でないために、ブートストラップが機能しない場合があります。私の本またはピーターホールの本では、サンプルサイズが小さすぎるというこの問題について説明しています。しかし、この個別のブートストラップサンプルの数は非常に急速に大きくなります。したがって、これはサンプルサイズが8であっても問題ではありません。次のリファレンスをご覧ください。


3
(4つのサンプルなど)が十分でないかどうかを確認するために実行する標準テストはありますか?平均のブートストラップ信頼区間を計算しているデータセットがありますが、一部の個人は非常に少ないデータポイントを持っています(場合によっては<8)。私の本能は、n個未満のデータポイントを持つ個人を無視する必要があることを教えてくれますが、このカットオフnをどのように定義するのですか?一般的に受け入れられているカットオフ値を見つけることを望んでいました(混合モデル分析でグループごとのサンプル数の任意のカットオフポイントが6または7であることに似ています)。
-RTbecard

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.