置き換えなしのK数の合計の期待


9

数値が与えられ、各数値の値が異なる場合、として示され各数値を選択する確率はそれぞれです。nv1,v2,...,vnp1,p2,...,pn

ここで、与えられた確率に基づいて個の数値を選択すると、、それらの個の数値の合計の期待値はどうなりますか?番号が重複する番号を含むことができないように、選択は置換なしであることに注意してください。選択が置換である場合、数の合計の期待値はに等しく、ここでKKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

さらに、それらの数の分散の期待についてはどうですか?K

私はビッグデータの問題に取り組んでいるCS博士課程の学生で、統計の経歴はありません。誰かが答えとして式を教えてくれることを期待しています。ただし、答えが複雑すぎて式で記述できない場合や、集中的な計算が必要な場合は、おおよその答えで十分です。

ここではかなり大きいと想定でき、確率は大きく変動する可能性があります。実際には、これらの確率の値は、一連の集計クエリを記録するクエリログから取得されます。重要なのは、クエリに含まれる各数値の頻度がかなり歪んでいる可能性があることです。つまり、クエリがほとんど行われないこともあれば、頻繁にクエリが行われることもあります。確率分布は正規分布、zipf分布、またはその他の妥当な代替であると想定できます。n

値の分布は、可能な分布の連続したサブセットにすぎません。つまり、特定の分布を表すヒストグラムがある場合、この問題に関係するすべての数値は、1つのバケット内のすべての数値です。

Kの値に関しては、頻繁に照会される要素の数よりも常に少ないと想定できます。


3
合計の分散の期待値は、置換しないと異なります。代替がない場合は、有限の母集団補正係数が必要になります。(これを直観的に見ると、K = nの場合、合計の分散はゼロになることに注意してください。常に同じ数になるため、Kがnに近づくと、合計の分散は低くなります。)
zbicyclist

1
この質問は、見かけよりも難しいかもしれません。およびの場合を考えます。置換で描画された2つの値の予想合計はこれは、当然、1つの値の予想合計の2倍です。しかし、置き換えなしで描画された2つの値の予想される合計は、を除いて、明らかにです。V 1V 2= 0 1 2 P 2 V 1 + V 2 = 1 2 、P 2 、P 1 = P 2 = 1 / 2n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber

1
@zbicyclistおそらく私は問題を明確に述べていませんでした。私のシナリオでは、K = N場合、それらのK数の分散は一般集団ではなく、0の分散であろう
SciPioneer

1
(1)これは、私にとって自習用の質問のようには見えません。確率の点で、本当の応用問題のように見えます。(2)どのくらい大きいのでしょうか?正確なソリューションは、すべてのサブセットを列挙できる場合を除いて、実行不可能に見えます。(3)がはるかに超える可能性があり、迅速な列挙ができない場合、について何と言えますか?たとえば、それらは変化する可能性がありますか、それともすべてが非常に近いでしょうか?これは、おおよその答えを見つけるための取り組みに通知することができます。n 20 p i 1 / nnn20pi1/n
whuber

1
編集ありがとうございます。、、、およびについて多くのことを私たちに伝えることができるほど、より良いです。たとえば、場合、置換を伴うサンプリングの式は適切な近似になるはずです(非常に少数の値が存在する場合でも、複数回選択されるため)。最も難しいのは、の値の範囲が広い場合であり、ほとんどの値をゼロで置き換えることはできませんが、かなりの数の pで置き換えることはできません。。NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

回答:


2

これはおそらく回答の性質上、正確ではありますが、おそらくそれほど有用ではありません。HorvitzとThompson(1952)は、この状況全般をカバーする結果を提供しています。これらの結果は、予想される組み合わせ表現の観点から示されています。

それらの表記法との一貫性を保ち、より広く使用されている表記法とよりよく対応するために、いくつかの数量を再定義させてください。してみましょう母集団内の要素の数であるとサンプルサイズです。Nn

ましょう、、表す与えられた値を持つ母集団の要素、、と選択の確率。サイズ特定のサンプルについて、サンプルの観測値をます。uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

必要なのは、サンプル合計の平均と分散です

i=1nvi.

コメントで述べたように、特定のサンプルをこの順序で選択する確率は ここでを描画する最初の確率 はによって与えられ、 を描画する2番目の確率はを母集団から削除したことを条件とします。したがって、引き続く各ユニットは、次のユニットの新しい確率分布になります(したがって、それぞれが異なる分布を表すため、異なる添字の選択)。s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

あります 母集団全体のうちを含む サイズサンプル。これはを考慮に入れていることに注意してくださいサンプルの順列。

S(i)=n!(N1n1)
nuin!

がを含むサイズ特定のサンプルを示すとしましょう。次に、要素を選択する確率は、与えられます ここで、合計は次のサイズのセットを超えていますすべての可能なサンプルはサイズの含有する。(混乱を招くように表記を紙から少し変更しました。)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

同様に、定義します は、と両方を含むサンプルの数として。次に、両方を含むサンプルの確率をとして定義できます ここで、合計はサイズのセット全ての可能性のあるサンプルのサイズの含有すると。

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

次に、期待値はとして導出されます

E(i=1nvi)=i=1NP(ui)Vi.

分散は論文で明示的に導出されていませんが、番目のモーメントの 期待値から取得できます と外積 q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

言い換えると、これらの計算を行うには、すべての可能なサブセットを調べる必要があるように見えます。たぶん、これはより小さな値に対して行うことができます。n

Horvitz、DGおよびThompson、DJ(1952)有限宇宙からの置換なしのサンプリングの一般化。Journal of the American Statistical Association 47(260):663-685。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.