この動的なサンプルサイズ選択戦略をどのように呼びますか?


8

大きなドキュメントの圧縮率を非常に高速に評価したいとします。サブシーケンスをランダムに選択して、圧縮してみることができます。これは、ドキュメントの全体的な圧縮率の予測として役立ちます。しかし、あなたのサンプルはどのくらいの大きさにすべきですか?

私たちは次の戦略を考え出しました:

  1. 任意の(小さい)サンプルサイズを選択します。圧縮率を測定します。
  2. 次に、サンプルサイズを2倍にして、圧縮率を再度測定します。変更がほとんどない(たとえば10%未満)場合は、ドキュメントの圧縮率が確実に決定されていると結論付けます。そうでない場合は、サンプルサイズを再度2倍にします。

これは新しい戦略ではないことは明らかであり、統計学者が使用している有名な戦略に関連しているかどうか疑問に思っています。

(ここでの「圧縮」は単なる例です。基本的に、適切なサンプルサイズが何であるかを分析的に決定することができないように、既知の優れた数学的特性がないメトリックに関心があります。そのようなヒューリスティックに戻ってください。)

回答:


3

これは「プログレッシブサンプリング」と呼ばれています。例:http : //citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.9168&rep=rep1&type=pdf


CDXからの参照は、Foster Provost、David Jensen、およびTim Oatesです。1999.効率的なプログレッシブサンプリング。知識の発見とデータマイニングに関する第5回ACM SIGKDD国際会議の議事録(KDD '99)。ACM、ニューヨーク、ニューヨーク、米国、23-32。
Daniel Lemire
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.