結果にある程度の良さを主張するために、シミュレーションのサンプルサイズを計算するにはどうすればよいですか?


8

私は統計の初心者なので、頭の悪い質問をする場合は事前に謝罪してください。質問への回答を検索しましたが、トピックの多くが具体的すぎるか、現在理解しているトピックをすぐに超えてしまいます。

完全にシミュレーションすることが不可能になる大規模なデータセットを含むシミュレーション作業があります。最小のデータセットの場合、完全な実行では、合計9180900テストからの結果の次の分布が示されます。

結果/頻度:

  • 0 7183804
  • 1 1887089
  • 2 105296
  • 3 4571
  • 4 140

数字の意味は関係ありません。重要なのは、私が持っているより大きなデータセットは何十億ものテストに拡張され、実行するには時間がかかりすぎるということです。ワークロードを制限する必要があります。

完全なテストセットからサンプリングして、サンプルの分布を導き出し、徹底的なシミュレーションの結果がほぼ同じ分布を示すと(ある程度の範囲内で)推測できるはずだと思います。実行されるテストには固有のバイアスがないため、入力を一様にランダムに選択すると、有効なサンプルが提供されます。

私がまだ理解していないのは、サンプルサイズを選択する方法です。特に、分布は奇妙な尾を示し、サンプリングが小さすぎると低い周波数が失われるのではないかと心配しています。(「4」の140回の出現は、人口の0.0015%にすぎません!)

それで、私の質問は、結果である程度の良いことを主張できるサンプルサイズを計算する最良の方法は何ですか?

または、私は間違った質問をしていますか?

回答:


6

あなたの質問への答えは、他の2つの質問だと思います。特定のテスト結果が気にならなくなる前に、どれほど稀な必要があるのでしょうか。あなたが実際にそれを気に止めなくなったしきい値で発生した場合、少なくともその方法で出てくるテストを実際に見つけることができることをどのくらい確信していますか?これらの値を指定すると、電力分析を実行できます。多項式(複数の結果を含む)電力分析を実行する必要があるかどうか、私は100%自信を持っていません。たとえば、http:/ /statpages.org/proppowr.html。アルファ= .05、パワー= 80%、グループ0の割合、グループ1の割合.0015。相対サンプルサイズ、1; 合計-13,000テストのすぐ南。予想されるテスト4の数は約20です。

これは、まれに発生する結果の1つを検出するために必要なテストの数を見つけるのに役立ちます。ただし、本当に重要なのが相対的な頻度である場合、問題はより困難になります。電力分析から得られたNを単純に20または30倍すると、妥当な推測が得られると思います。

実際には、事前にテスト数を決定する必要がない場合は、20または30の結果4が得られるまでテストを実行することを検討してください。その4が多くなるまでに、相対頻度IMOの絶対推定値ではありませんが、妥当な推定値を取得する必要があります。

結局のところ、実行するテストの数と精度の間にはトレードオフがあります。「十分」な数を実際に決定する前に、見積もりをどの程度正確にしたいかを知る必要があります。


そう、電力分析。たぶん、私は確かに相対的な頻度を気にしていると思います。私もそれについて読んでみます。実行するテストの数が明確に定義されていないため、各データセットに対して、ランダムに選択されたテストの2%を実行しています。2%は任意ですが、より大きなデータセットでも扱いやすいです。これは、データセットのテストの母集団に対してサンプルサイズが増加することを意味します。これにより、より大きなデータセットで必要なテストよりも多くのテストにつながる可能性があります...
Stephen

2

電力分析は、あなたがやろうとしていることについてはあまりにも手の込んだものであり、失望するかもしれません。

サンプルサイズが900万以上の場合、推定値p = Pr(X > 3) = 0.000015はかなり正確だと思います。したがって、これを単純なbinomial(n、p)モデルで使用して、サンプルサイズを推定できます。

あなたの目標が99.9%の確率で少なくとも1つの「大きな」イベントを観察することだとします。次にPr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999、希望のサンプルサイズはn = ln(0.001)/ln(0.999985) = 460514です。

もちろん、ラッキーで大規模なイベントを見逃す可能性が10%ある場合は、サンプルサイズはn = 153505で十分です。サンプルサイズを3倍にすると、大規模なイベントを見逃す可能性が1倍少なくなります。 100なので、460,000にします。

しかし、FIVEを探している場合、その確率は1/9180902のすぐ南にあり、99.9%の確率でTHOSEの少なくとも1つを観察するには、約6340万のサンプルサイズが必要です。

すべてのデータセット全体で一定ではない可能性があるため、Largeイベントの確率の推定値を更新することに関するDrKNexusのアドバイスに注意してください。


指定したPr(X> 3)は、質問者の0.0015とは異なります。修正する必要がある場合があります。
russellpierce
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.