Aのサブセットをランダムにサンプリングして、セットAのサブセットXのサイズを推定できますか?


8

してみましょう有限集合であると我々はいくつかのサブセットの大きさを計算したいと。XAX

動機:要素をランダムに均一に生成できる場合、ランダムサンプリングによってのサイズを推定できます。それは我々が取る、あるから無作為標本を場合、彼らの所属する、その後、。残念ながら、私が行うことについては、通常巨大で(大規模であるが)に関してはかなり小さい 。したがって、上記の推定を実行しようとすると、になる可能性がありますこれは、役に立たないわけではありませんが、実際にはそれほど満足できるものではありません。A A n A m X | X | / | A | M / N | A | | X | | A | m = 0xAAnAmX|X|/|A|m/n|A||X||A|m=0

だから、私はこのプロセスをスピードアップしたいと思っています。大規模なダーツボードでダーツを投げる代わりに、なぜボールを投げないのですか?それは代わりに要素をサンプリングする、あるの、我々のサンプル部分集合。確かに私は、密度について何かを推測することができるはずでこの実験から。A X AxAAXA

が計量備えていると仮定します(私はハミング距離を念頭に置いています)。任意の、は、を中心とするの半径閉じたボールになります。要素をランダムに均一にサンプリングできるため、ボールをランダムに均一にサンプリングできます。D X Y Y A Y Y = { X A D X Y K } K A T X A K YのKT Ad(x,y)yAY(y)={xA:d(x,y)k}kAtxAkYk(t)

(a)すべてのがまったく同じ数のボールに属し、(b)すべてのボールが同じサイズあると仮定します。K K RxAkkr

ここで、ボールをランダムに均一に生成し、を仮定するとします。推定できるようです 同様に、。Y 1Y 2Y n m = n i = 1 | Y IX | | A | | X |kY1,Y2,,Ynm=i=1n|YiX||A||X|/|A|mrn

だから私の質問は:

近似できるという点で正しいですか こちらです?もしそうなら、私がこれを最初に考えるとは思えないので、この方法の名前はありますか?|X|

私は実際にいくつかのセットでこれをテストしました、そしてそれは私が主張するものと一致しているようです。

このアプローチには欠点がありますか?(たとえば、精度が低いですか?より多くのサンプルが必要ですか?)


2番目の段落で、少し間違えたと思います。そうでなければ、あなたがしていることは基本的にモンテカルロ統合を再発明することです、まあ、私がまだ遭遇していないサブセットバージョンですが、それがすでに終わっていても私は驚かないでしょう。|X|/|A|m/n
Raskolnikov 2010

ありがとう、はい、それは間違いでした(実際、後で同様の問題もありました)。
Douglas S. Stones

回答:


3

OK、モンテカルロ統合の Wikipediaページを読んでみてください。あなたは彼らが層別化されたバージョンについて言及しているのを見るでしょう。層別化は、試行する統計の専門用語です。サブセット(サブサンプル)に細分します。参照はあなたをさらに助けることができると思います。


3

サブセットについて、サンプリングで選択する確率とします。確率変数を記述しましたAYAπ(Y)

f(Y)=|YX|.

のサブセットの母集団におけるの合計は、AfA

τ(X)=YA|YX|=2|A|1|X|.

のサブセットのサンプル(置換あり)、たとえばから、Hansen-Hurwitz Estimatorはこの合計の不偏推定を次のように取得します。Y 1Y 2... AY1,Y2,,Ym

f^π=i=1m|YiX|π(Yi).

これを割る したがって、推定します 。の分散は| X | / | A |2|A|1|A||X|/|A|f^π

Var(f^π)=1mYAπ(Y)(|YX|π(Y)2|A|1|X|)2.

これを割ると、標本分散が得られます 。、、および提案されたサンプリング手順(すべてのに対してを指定が与えられた場合、推定分散が許容できるほど小さくなる(サンプルサイズ)の値を選択します。| X | / | A | Xがπ Y Y A M22(|A|1)|A|2|X|/|A|AXπ(Y)YAm


すばらしい、これが答えだと思います!ハンセンハーヴィッツは知りませんでした...
ロビンギラード

2

あなたの測定は有限だと思います。WLOGは確率の可能性があります。

あなたが言及する最初の手順は古き良き経験的確率推定です:

P^(YX)=|{xiX}|/n

(積分のモンテカルロ推定も良い解釈です)。高次元では、は通常のAでは空である可能性が高いため機能しません。気づいたように、正則化が必要です。必要な正則化は、空間の大きさに関係します。{xiX}

アイデアが拡大された、あるいはに重みを与えるにないまでの距離に応じて、これは私が呼んウルド何であるカーネル確率推定値(の類推により、カーネル密度推定を):x i XXxiXX

P^(YX)=1/(c(k)n)iK(d(xi,X)/k)

ここで、は統合するカーネルです(あなたの場合はかまいませんが、ガウスカーネルは優れた特性を持っています)、は適切に選択された正規化定数(つまりその)。1 K X = 1 { X 1 } C K PY A = 1K1K(x)=1{x1}c(k)P^(YA)=1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.