してみましょう有限集合であると我々はいくつかのサブセットの大きさを計算したいと。X
動機:要素をランダムに均一に生成できる場合、ランダムサンプリングによってのサイズを推定できます。それは我々が取る、あるから無作為標本を場合、彼らの所属する、その後、。残念ながら、私が行うことについては、通常巨大で(大規模であるが)に関してはかなり小さい 。したがって、上記の推定を実行しようとすると、になる可能性がありますこれは、役に立たないわけではありませんが、実際にはそれほど満足できるものではありません。A A n A m X | X | / | A | ≈ M / N | A | | X | | A | m = 0
だから、私はこのプロセスをスピードアップしたいと思っています。大規模なダーツボードでダーツを投げる代わりに、なぜボールを投げないのですか?それは代わりに要素をサンプリングする、あるの、我々のサンプル部分集合。確かに私は、密度について何かを推測することができるはずでこの実験から。A X A
が計量備えていると仮定します(私はハミング距離を念頭に置いています)。任意の、は、を中心とするの半径閉じたボールになります。要素をランダムに均一にサンプリングできるため、ボールをランダムに均一にサンプリングできます。D (X 、Y )Y ∈ A Y (Y )= { X ∈ A :D (X 、Y )≤ K } K A T X ∈ A K YのK(T )
(a)すべてのがまったく同じ数のボールに属し、(b)すべてのボールが同じサイズあると仮定します。K K R
ここで、ボールをランダムに均一に生成し、を仮定するとします。推定できるようです 同様に、。Y 1、Y 2、… 、Y n m = ∑ n i = 1 | Y I ∩ X | | A | | X |
だから私の質問は:
近似できるという点で正しいですか こちらです?もしそうなら、私がこれを最初に考えるとは思えないので、この方法の名前はありますか?
私は実際にいくつかのセットでこれをテストしました、そしてそれは私が主張するものと一致しているようです。
このアプローチには欠点がありますか?(たとえば、精度が低いですか?より多くのサンプルが必要ですか?)