これは、誰も実際に簡単な答えを出すことができない、かなりホットなトピックであることを知っています。それにもかかわらず、次のアプローチが役に立たないのではないかと思っています。
ブートストラップ法は、サンプルが元の母集団とほぼ同じ分布をたどる(正確に読む)場合にのみ役立ちます。これを確実にするには、サンプルサイズを十分に大きくする必要があります。しかし、十分な大きさは何ですか?
私の前提が正しければ、中央限界定理を使用して母平均を決定するときに同じ問題が生じます。サンプルサイズが十分に大きい場合にのみ、サンプル平均の母集団が正規分布(母集団平均付近)であることを確認できます。言い換えると、サンプルは母集団(分布)を十分に表す必要があります。しかし、再び、何が十分な大きさですか?
私の場合(管理プロセス:需要を完了するのに必要な時間対需要の量)私はマルチモーダル分布(2011年に終了するすべての需要)のある人口を持っています。人口よりも通常分布している(現在の日と過去の日の間で終了するすべての要求、理想的にはこのタイムスパンはできるだけ小さい)研究したい。
2011年の人口は、サンプルサイズサンプルを作成するのに十分な単位ではありません。値を選択し、 ()と仮定します。ここで、試行錯誤を行って適切なサンプルサイズを決定します。を取り、サンプル平均母集団がKolmogorov-Smirnovを使用して正規分布しているかどうかを確認します。そうであれば、サンプルサイズで同じ手順を繰り返しますが、サンプルサイズ(など)で繰り返しません。
しばらくして、2011年の母集団を多かれ少なかれ適切に表現するために、が絶対最小サンプルサイズであると結論付けました。関心のある母集団(現在の日と過去の日の間に終了するすべての要求)のばらつきが少ないことがわかっているため、ブートストラップにサンプルサイズを安全に使用できます。(間接的に、はタイムスパンのサイズを決定します:要求を完了するのに必要な時間。)
要するに、これは私の考えです。しかし、私は統計学者ではなく、統計学の授業がその先の日に行われたエンジニアなので、多くのゴミを生成した可能性を排除することはできません:-)。皆さんはどう思いますか?私の前提が理にかなっている場合、より大きいを選択する必要がありますか?あなたの答え次第です(恥ずかしいと思う必要がありますか?:-)さらにディスカッションのアイデアを投稿します。
最初の回答に対する回答返信いただきありがとうございます。あなたの回答は、特に本のリンクに関して非常に役に立ちました。
しかし、私は情報を提供しようとして、質問を完全に曇らせたことに不満を感じています。ブートストラップサンプルが母集団サンプルの分布を引き継ぐことを知っています。私は完全にあなたに従いますが...
元の母集団サンプルは、母集団サンプルの分布が母集団の「実際の」分布に対応する(等しい)ことをある程度確実にするのに十分な大きさである必要があります。
これは、サンプル分布が母集団分布と一致することを合理的に確認するために、元のサンプルサイズがどれだけ大きくする必要があるかを判断する方法に関する単なるアイデアです。
二峰性の人口分布があり、一方の頂点が他方の頂点よりもはるかに大きいとします。サンプルサイズが5の場合、5つのユニットすべてが大きなトップに非常に近い値を持つ可能性が高くなります(ユニットをランダムに描画する広告のチャンスは最大です)。この場合、サンプル分布はモノモーダルになります。
サンプルサイズが100の場合、サンプル分布もバイモーダルである可能性ははるかに大きくなります!! ブートストラップの問題は、サンプルが1つしかないことです(そして、そのサンプルをさらにビルドします)。サンプル分布が実際に母集団分布と一致しない場合、問題が発生しています。これは、サンプルサイズを無限に大きくすることなく、「悪いサンプル分布」の可能性をできるだけ低くするためのアイデアです。