大きなドキュメントの圧縮率を非常に高速に評価したいとします。サブシーケンスをランダムに選択して、圧縮してみることができます。これは、ドキュメントの全体的な圧縮率の予測として役立ちます。しかし、あなたのサンプルはどのくらいの大きさにすべきですか?
私たちは次の戦略を考え出しました:
- 任意の(小さい)サンプルサイズを選択します。圧縮率を測定します。
- 次に、サンプルサイズを2倍にして、圧縮率を再度測定します。変更がほとんどない(たとえば10%未満)場合は、ドキュメントの圧縮率が確実に決定されていると結論付けます。そうでない場合は、サンプルサイズを再度2倍にします。
これは新しい戦略ではないことは明らかであり、統計学者が使用している有名な戦略に関連しているかどうか疑問に思っています。
(ここでの「圧縮」は単なる例です。基本的に、適切なサンプルサイズが何であるかを分析的に決定することができないように、既知の優れた数学的特性がないメトリックに関心があります。そのようなヒューリスティックに戻ってください。)