置き換えのない独立したランダムサンプルの交差のカーディナリティの分布はどのようになっていますか?


10

N N 12a m nSは要素のセットであり、は以下の固定された正の整数です。nNa1,a2,...,amn

の要素が等しい可能性がある場合、サンプルは置換せずにから個別に独立して描画され、そのサイズはそれぞれです。m個のL 1L 2LのMが S 12MSmL1,L2,...,LmSa1,a2,...,am

サンプルの交差のカーディナリティ一般に、と同等のサポートがありますが、どの分布に従うのですか?|L1L2 ... Lm|{0,1,...,min{a1,a2,...,am}}


再帰的に計算するためのレシピを提供できますが、閉形式のソリューションは知りません。それで十分でしょうか、それとも、a1,,am、およびnが指定された分布関数の明示的な式が必要ですnか?
Bridgeburners、2018年

@Bridgeburnersレシピはいいです、少なくともそれはこの問題を攻撃し、関連するいくつかの方法/方法を提供するでしょう。
llrs 2018年

回答:


3

これは、再帰を含まない別のアプローチです。ただし、長さはパラメーターに依存しますが、合計と積を使用します。最初に表現をして、それから説明します。

我々は

P(|L1L2Lm|=k)=(nk)i=1n(nai)j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

編集:これらすべての記述の終わりに、2項係数を超幾何確率と3項係数に結合することにより、上記の式を少し統合できることに気付きました。価値のあるものとして、改訂された式は ここで、は超幾何確率変数であり、は成功状態を持つサイズ母集団から取得されます。Hypnj+kalalnj+k

j=0min(a1,,am)k(1)j(nj,k,njk)l=1nP(Hyp(n,j+k,al)=j+k).
Hyp(n,j+k,al)alnj+k

導出

(うまくいけば)組み合わせの引数を追跡するのを少し簡単にするために、いくつかの表記を取得しましょう。全体を通して、および修正されたと見なします。我々が使用します順序付きのコレクションを表すためにタプル各満たすには、1... M個の CI M L 1... LがML ISSa1,,amC(I)m(L1,,Lm)LiS

  • |Li|=ai ; そして
  • L1Lm=I

同等の代わりに必要なことを除いて、同一のコレクションにはも使用します。 L 1 LのMIC(I)L1LmI

重要な観察は、は比較的簡単に数えることができるということです。これは、条件がすべてのと同等であるため、ある意味で、これは異なる値間の相互作用を削除します。各について、要件を満たす数は、サイズのサブセットを選択することでそのような構築できるため、そしてとの結合。その結果、 L 1 LのMI L IIIII L I | S | - | I |C(I)L1LmILiIiiiLiLiSIai| | | CI| =ni=1|S||I|(|S||I|ai|I|)LiSIai|I|I

|C(I)|=i=1n(|S||I|ai|I|).

これで、元の確率はを介して次のように表すことができます: P | L 1L 2LのM | = K = Σ I | | = k | CI |C

P(|L1L2Lm|=k)=I:|I|=k|C(I)|all IS|C(I)|.

ここですぐに2つの簡略化を行うことができます。まず、分母はと同じです 第二に、順列引数ショーカーディナリティーによってのみ依存する。あるのでの部分集合基数を有する、それはそれが次 ここで、はカーディナリティを持つ任意の固定サブセットです

|C()|=i=1n(|S|ai)=i=1n(nai).
|C(I)|I|I|(nk)Sk
I:|I|=k|C(I)|=(nk)|C(I0)|,
I0Sk

一歩後ろに戻って、問題を減らし、

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

LETの別個のサブセットであるに正確に1つの要素を追加することによって形成され。次に、 (これは、場合、にが、追加の要素も含まれていません。)カウント問題をカウント問題に変換しました。より具体的には、 J1,,JnkSI0

C(I0)=C(I0)(i=1nkC(Ji)).
L1Lm=I0L1LmI0CC
|C(I0)|=|C(I0)||i=1nkC(Ji)|=l=1n(nkalk)|i=1nkC(Ji)|.

上記の共用体式のサイズを処理するために包含/除外を適用できます。ここでの重要な関係は、空ではない、 これは、に数が含まれている場合、それらの和も含まれているためです。また、セットサイズは。したがって I{1,,nk}

iIC(Ji)=C(iIJi).
L1LmJiiIJi|I0|+|I|=k+|I|
|i=1nkC(Ji)|=I{1,,nk}(1)|I|1|iIC(Ji)|=j=1nkI:|I|=j(1)j1l=1n(njkaljk)=j=1nk(1)j1(nkj)l=1n(njkaljk).
(すべてのでない限り、二項係数の積はゼロなので、ここで値を制限できます。つまり、。)jjalkljmin(a1,,am)k

最後に、最後の式をの方程式に代入することにより 上記と合計を統合すると、 と主張されています。|C(I0)|

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk)

すべての努力と解決策に+1しますが、これのほとんど(および他の答え)を理解するには、数学を磨く必要があります。ありがとう
llrs '12 / 03/18

4

これを解決する分析的な方法は知りませんが、結果を計算する再帰的な方法があります。

場合、中から要素を選択します。そのうちのは以前に選択されています。2番目の描画でと交差する要素を選択する確率は、超幾何分布によって与えられます。m=2a2n, a1kmin{a1,a2}L1

P(kn,a1,a2)=(a1k)(na1a2k)(na2).

結果をと呼ぶことができます同じロジックを使用してを見つけることができますここで、は3つのサンプルの共通部分のカーディナリティです。そして、b2.P(b3=kn,b2,a3),b3

P(b3=k)=l=0min(a1,a2)P(b3=kn,b2=l,a3)P(b2=ln,a1,a2).

これをごとに見つけます。は前の計算の結果であり、は次の呼び出しなので、後者の計算は数値的に難しくありません超幾何分布。k{0,1,2,,min(a1,a2,a3)}P(b2=ln,a1,a2)P(b3=kn,b2=l,a3)

一般に、を見つけるには、次の再帰式を適用できます: のための及び これは、と言うだけP(bm)

P(bi=k)=l=0min(a1,a2,,ai1)P(bi=kn,bi1=l,ai)P(bi1=l),
I{23...M}PB1=δA1、B1B1=1
P(bi=kn,bi1=l,ai)=(lk)(nlaik)(nai),
i{2,3,,m},
P(b1)=δa1b1,
b1=a1.

これはRにあります:

hypergeom <- function(k, n, K, N) choose(K, k) * choose(N-K, n-k) / choose(N, n)

#recursive function for getting P(b_i) given P(b_{i-1})
PNext <- function(n, PPrev, ai, upperBound) {
  l <- seq(0, upperBound, by=1)
  newUpperBound <- min(ai, upperBound)
  kVals <- seq(0, newUpperBound, by=1)
  PConditional <- lapply(kVals, function(k) {
    hypergeom(k, ai, l, n)
  })
  PMarginal <- unlist(lapply(PConditional, function(p) sum(p * PPrev) ))
  PMarginal
}

#loop for solving P(b_m)
P <- function(n, A, m) {
  P1 <- c(rep(0, A[1]), 1)
  if (m==1) {
    return(P1)
  } else {
    upperBound <- A[1]
    P <- P1
    for (i in 2:m) {
      P <- PNext(n, P, A[i], upperBound)
      upperBound <- min(A[i], upperBound)
    }
    return(P)
  }
}

#Example
n <- 10
m <- 5
A <- sample(4:8, m, replace=TRUE)
#[1] 6 8 8 8 5

round(P(n, A, m), 4)
#[1] 0.1106 0.3865 0.3716 0.1191 0.0119 0.0003
#These are the probabilities ordered from 0 to 5, which is the minimum of A

ソリューションとコードをありがとう。賞金を獲得する前に、他の回答アプローチ(もし来たら)を待ちます。
llrs 2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.