私は統計の初心者なので、頭の悪い質問をする場合は事前に謝罪してください。質問への回答を検索しましたが、トピックの多くが具体的すぎるか、現在理解しているトピックをすぐに超えてしまいます。
完全にシミュレーションすることが不可能になる大規模なデータセットを含むシミュレーション作業があります。最小のデータセットの場合、完全な実行では、合計9180900テストからの結果の次の分布が示されます。
結果/頻度:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
数字の意味は関係ありません。重要なのは、私が持っているより大きなデータセットは何十億ものテストに拡張され、実行するには時間がかかりすぎるということです。ワークロードを制限する必要があります。
完全なテストセットからサンプリングして、サンプルの分布を導き出し、徹底的なシミュレーションの結果がほぼ同じ分布を示すと(ある程度の範囲内で)推測できるはずだと思います。実行されるテストには固有のバイアスがないため、入力を一様にランダムに選択すると、有効なサンプルが提供されます。
私がまだ理解していないのは、サンプルサイズを選択する方法です。特に、分布は奇妙な尾を示し、サンプリングが小さすぎると低い周波数が失われるのではないかと心配しています。(「4」の140回の出現は、人口の0.0015%にすぎません!)
それで、私の質問は、結果である程度の良いことを主張できるサンプルサイズを計算する最良の方法は何ですか?
または、私は間違った質問をしていますか?