置き換えのない独立したランダムサンプルの交差のカーディナリティの分布はどのようになっていますか？

$S$ は要素のセットであり、は以下の固定された正の整数です。 $n\in\mathbb{N}$ $a_1,a_2,...,a_m$ $n$

の要素が等しい可能性がある場合、サンプルは置換せずにから個別に独立して描画され、そのサイズはそれぞれです。 $S$ $m$ $L_1, L_2,...,L_m$ $S$ $a_1,a_2,...,a_m$

サンプルの交差のカーディナリティ一般に、と同等のサポートがありますが、どの分布に従うのですか？ $\left|L_1\cap L_2\cap\ ...\ \cap L_m\right|$ $\{0,1,...,\min\{a_1,a_2,...,a_m\}\}$

combinatorics

— 冷たい水
ソース

再帰的に計算するためのレシピを提供できますが、閉形式のソリューションは知りません。それで十分でしょうか、それとも、

a_{1}, \dots, a_{m}

$a_1, \dots, a_m$ 、および

指定された分布関数の明示的な式が必要です

n

$n$ か？

— Bridgeburners、2018年

@Bridgeburnersレシピはいいです、少なくともそれはこの問題を攻撃し、関連するいくつかの方法/方法を提供するでしょう。

— llrs 2018年

回答:

これは、再帰を含まない別のアプローチです。ただし、長さはパラメーターに依存しますが、合計と積を使用します。最初に表現をして、それから説明します。

我々は

\begin{aligned} P & (| L_{1} \cap L_{2} \cap \dots \cap L_{m} | = k) \\ = \frac{(\binom{n}{k})}{\prod_{i = 1}^{n} (\binom{n}{a_{i}})} \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) . \end{aligned}

$\begin{align} P &\bigl( | L_{1} \cap L_{2} \cap \cdots \cap L_{m} | = k \bigr) \\ &= \frac{\binom{n}{k}}{\prod_{i = 1}^{n} \binom{n}{a_{i}}} \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} -j - k}. \end{align}$

編集：これらすべての記述の終わりに、2項係数を超幾何確率と3項係数に結合することにより、上記の式を少し統合できることに気付きました。価値のあるものとして、改訂された式はここで、は超幾何確率変数であり、は成功状態を持つサイズ母集団から取得されます。

\sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n}{j, k, n - j - k}) \prod_{l = 1}^{n} P (Hyp (n, j + k, a_{l}) = j + k) .

$\begin{equation} \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n}{j, k, n - j - k} \prod_{l = 1}^{n} P( \text{Hyp}(n, j + k, a_{l}) = j + k). \end{equation}$

Hyp (n, j + k, a_{l})

$\text{Hyp}(n, j + k, a_{l})$

a_{l}

$a_{l}$

n

$n$

j + k

$j + k$

導出

（うまくいけば）組み合わせの引数を追跡するのを少し簡単にするために、いくつかの表記を取得しましょう。全体を通して、および修正されたと見なします。我々が使用します順序付きのコレクションを表すためにタプル各満たすには、 $S$ $a_{1}, \ldots, a_{m}$ $\mathcal{C}(I)$ $m$ $(L_{1}, \ldots, L_{m})$ $L_{i} \subseteq S$

$|L_{i}| = a_{i}$ ; そして
$L_{1} \cap \cdots \cap L_{m} = I$ 。

同等の代わりに必要なことを除いて、同一のコレクションにはも使用します。 $\mathcal{C}'(I)$ $L_{1} \cap \cdots \cap L_{m} \supseteq I$

重要な観察は、は比較的簡単に数えることができるということです。これは、条件がすべてのと同等であるため、ある意味で、これは異なる値間の相互作用を削除します。各について、要件を満たす数は、サイズのサブセットを選択することでそのような構築できるため、そしてとの結合。その結果、 $\mathcal{C}'(I)$ $L_{1} \cap \cdots \cap L_{m} \supseteq I$ $L_{i} \supseteq I$ $i$ $i$ $i$ $L_{i}$ $\binom{|S| - |I|}{a_{i} - |I|}$ $L_{i}$ $S \setminus I$ $a_{i} - |I|$ $I$

| C^{'} (I) | = \prod_{i = 1}^{n} (\binom{| S | - | I |}{a_{i} - | I |}) .

$\begin{equation} | \mathcal{C}'(I) | = \prod_{i = 1}^{n} \binom{|S| - |I|}{a_{i} - |I|}. \end{equation}$

これで、元の確率はを介して次のように表すことができます： $\mathcal{C}$

P (| L_{1} \cap L_{2} \cap \dots \cap L_{m} | = k) = \frac{\sum_{I : | I | = k} | C (I) |}{\sum_{all I \subseteq S} | C (I) |} .

$\begin{equation} P \bigl( | L_{1} \cap L_{2} \cap \cdots \cap L_{m} | = k \bigr) = \frac{ \sum_{I : |I| = k} | \mathcal{C}(I) | } { \sum_{\text{all $I \subseteq S$}} | \mathcal{C}(I) | }. \end{equation}$

ここですぐに2つの簡略化を行うことができます。まず、分母はと同じです第二に、順列引数ショーカーディナリティーによってのみ依存する。あるのでの部分集合基数を有する、それはそれが次ここで、はカーディナリティを持つ任意の固定サブセットです

| C^{'} (\emptyset) | = \prod_{i = 1}^{n} (\binom{| S |}{a_{i}}) = \prod_{i = 1}^{n} (\binom{n}{a_{i}}) .

$\begin{equation} | \mathcal{C}'(\emptyset) | = \prod_{i = 1}^{n} \binom{|S|}{a_{i}} = \prod_{i = 1}^{n} \binom{n}{a_{i}}. \end{equation}$

| C (I) |

$| \mathcal{C}(I) |$

I

$I$

| I |

$|I|$

(\binom{n}{k})

$\binom{n}{k}$

S

$S$

k

$k$

\sum_{I : | I | = k} | C (I) | = (\binom{n}{k}) | C (I_{0}) |,

$\begin{equation} \sum_{I : |I| = k} | \mathcal{C}(I) | = \binom{n}{k} | \mathcal{C}(I_{0}) |, \end{equation}$

I_{0}

$I_{0}$

S

$S$

k

$k$ 。

一歩後ろに戻って、問題を減らし、

| C (I_{0}) | = \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) .

$\begin{equation} | \mathcal{C}(I_{0}) | = \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k}. \end{equation}$

LETの別個のサブセットであるに正確に1つの要素を追加することによって形成され。次に、（これは、場合、にが、追加の要素も含まれていません。）カウント問題をカウント問題に変換しました。より具体的には、 $J_{1}, \ldots, J_{n - k}$ $S$ $I_{0}$

C (I_{0}) = C^{'} (I_{0}) ∖ (⋃_{i = 1}^{n - k} C^{'} (J_{i})) .

$\begin{equation} \mathcal{C}(I_{0}) = \mathcal{C}'(I_{0}) \setminus \biggl( \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr). \end{equation}$

L_{1} \cap \dots \cap L_{m} = I_{0}

$L_{1} \cap \cdots \cap L_{m} = I_{0}$

L_{1} \cap \dots \cap L_{m}

$L_{1} \cap \cdots \cap L_{m}$

I_{0}

$I_{0}$

C

$\mathcal{C}$

C^{'}

$\mathcal{C}'$

| C (I_{0}) | = | C^{'} (I_{0}) | - | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | = \prod_{l = 1}^{n} (\binom{n - k}{a_{l} - k}) - | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | .

$\begin{equation} | \mathcal{C}(I_{0}) | = | \mathcal{C}'(I_{0}) | - \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr| = \prod_{l = 1}^{n} \binom{n - k}{a_{l} - k} - \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr|. \end{equation}$

上記の共用体式のサイズを処理するために包含/除外を適用できます。ここでの重要な関係は、空ではない、これは、に数が含まれている場合、それらの和も含まれているためです。また、セットサイズは。したがって $\mathcal{I} \subseteq \{ 1, \ldots, n - k \}$

⋂_{i \in I} C^{'} (J_{i}) = C^{'} (⋃_{i \in I} J_{i}) .

$\begin{equation} \bigcap_{i \in \mathcal{I}} \mathcal{C}'(J_{i}) = \mathcal{C}' \biggl( \bigcup_{i \in \mathcal{I}} J_{i} \biggr). \end{equation}$

L_{1} \cap \dots \cap L_{m}

$L_{1} \cap \cdots \cap L_{m}$

J_{i}

$J_{i}$

⋃_{i \in I} J_{i}

$\bigcup_{i \in \mathcal{I}} J_{i}$

| I_{0} | + | I | = k + | I |

$|I_{0}| + |\mathcal{I}| = k + |\mathcal{I}|$

\begin{aligned} | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | & = \sum_{\emptyset \neq I \subseteq {1, \dots, n - k}} (- 1)^{| I | - 1} | ⋂_{i \in I} C^{'} (J_{i}) | \\ = \sum_{j = 1}^{n - k} \sum_{I : | I | = j} (- 1)^{j - 1} \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) \\ = \sum_{j = 1}^{n - k} (- 1)^{j - 1} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) . \end{aligned}

$\begin{align} \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr| &= \sum_{\emptyset \neq \mathcal{I} \subseteq \{ 1, \ldots, n - k \}} (-1)^{| \mathcal{I} | - 1} \biggl| \bigcap_{i \in \mathcal{I}} \mathcal{C}'(J_{i}) \biggr| \\ &= \sum_{j = 1}^{n - k} \sum_{\mathcal{I} : |\mathcal{I}| = j} (-1)^{j - 1} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k} \\ &= \sum_{j = 1}^{n - k} (-1)^{j - 1} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k}. \end{align}$ （すべてのでない限り、二項係数の積はゼロなので、ここで値を制限できます。つまり、。）

j

$j$

j \leq a_{l} - k

$j \leq a_{l} - k$

l

$l$

j \leq min (a_{1}, \dots, a_{m}) - k

$j \leq \min(a_{1}, \ldots, a_{m}) - k$

最後に、最後の式をの方程式に代入することにより上記と合計を統合すると、と主張されています。 $| \mathcal{C}(I_{0}) |$

| C (I_{0}) | = \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k})

$\begin{equation} | \mathcal{C}(I_{0}) | = \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k} \end{equation}$

— ジェイソン
ソース

すべての努力と解決策に+1しますが、これのほとんど（および他の答え）を理解するには、数学を磨く必要があります。ありがとう

— llrs '12 / 03/18

これを解決する分析的な方法は知りませんが、結果を計算する再帰的な方法があります。

場合、中から要素を選択します。そのうちのは以前に選択されています。2番目の描画でと交差する要素を選択する確率は、超幾何分布によって与えられます。 $m=2$ $a_2$ $n,$ $a_1$ $k \le \min\{a_1,a_2\}$ $L_1$

P (k ∣ n, a_{1}, a_{2}) = \frac{(\binom{a_{1}}{k}) (\binom{n - a_{1}}{a_{2} - k})}{(\binom{n}{a_{2}})} .

$P(k \mid n, a_1, a_2) = \frac{ {a_1 \choose k} {n - a_1 \choose a_2 - k} } {n \choose a_2}.$

結果をと呼ぶことができます同じロジックを使用してを見つけることができますここで、は3つのサンプルの共通部分のカーディナリティです。そして、 $b_2.$ $P(b_3 = k \mid n, b_2, a_3),$ $b_3$

P (b_{3} = k) = \sum_{l = 0}^{min (a_{1}, a_{2})} P (b_{3} = k ∣ n, b_{2} = l, a_{3}) P (b_{2} = l ∣ n, a_{1}, a_{2}) .

$P(b_3=k) = \sum_{l=0}^{\min(a_1,a_2)} P(b_3=k \mid n, b_2=l, a_3) P(b_2 =l \mid n, a_1, a_2).$

これをごとに見つけます。は前の計算の結果であり、は次の呼び出しなので、後者の計算は数値的に難しくありません超幾何分布。 $k \in \{0, 1, 2, \dots, \min(a_1,a_2,a_3)\}$ $P(b_2 = l \mid n, a_1, a_2)$ $P(b_3 = k \mid n, b_2=l, a_3)$

一般に、を見つけるには、次の再帰式を適用できます：のための及びこれは、と言うだけ $P(b_m)$

P (b_{i} = k) = \sum_{l = 0}^{min (a_{1}, a_{2}, \dots, a_{i - 1})} P (b_{i} = k ∣ n, b_{i - 1} = l, a_{i}) P (b_{i - 1} = l),

$P(b_i=k) = \sum_{l=0}^{\min(a_1, a_2, \dots, a_{i-1})} P(b_i = k \mid n, b_{i-1}=l, a_i) P(b_{i-1}=l),$

P (b_{i} = k ∣ n, b_{i - 1} = l, a_{i}) = \frac{(\binom{l}{k}) (\binom{n - l}{a_{i} - k})}{(\binom{n}{a_{i}})},

$P(b_i = k \mid n, b_{i-1}=l, a_i) = \frac{{l \choose k} {n-l \choose a_i - k}} {n \choose a_i},$

i \in {2, 3, \dots, m},

$i \in \{2, 3, \dots, m\},$

P (b_{1}) = δ_{a_{1} b_{1}},

$P(b_1) = \delta_{a_1 b_1},$

b_{1} = a_{1} .

$b_1 = a_1.$

これはRにあります：

hypergeom <- function(k, n, K, N) choose(K, k) * choose(N-K, n-k) / choose(N, n)

#recursive function for getting P(b_i) given P(b_{i-1})
PNext <- function(n, PPrev, ai, upperBound) {
  l <- seq(0, upperBound, by=1)
  newUpperBound <- min(ai, upperBound)
  kVals <- seq(0, newUpperBound, by=1)
  PConditional <- lapply(kVals, function(k) {
    hypergeom(k, ai, l, n)
  })
  PMarginal <- unlist(lapply(PConditional, function(p) sum(p * PPrev) ))
  PMarginal
}

#loop for solving P(b_m)
P <- function(n, A, m) {
  P1 <- c(rep(0, A[1]), 1)
  if (m==1) {
    return(P1)
  } else {
    upperBound <- A[1]
    P <- P1
    for (i in 2:m) {
      P <- PNext(n, P, A[i], upperBound)
      upperBound <- min(A[i], upperBound)
    }
    return(P)
  }
}

#Example
n <- 10
m <- 5
A <- sample(4:8, m, replace=TRUE)
#[1] 6 8 8 8 5

round(P(n, A, m), 4)
#[1] 0.1106 0.3865 0.3716 0.1191 0.0119 0.0003
#These are the probabilities ordered from 0 to 5, which is the minimum of A

— ブリッジバーナー
ソース

ソリューションとコードをありがとう。賞金を獲得する前に、他の回答アプローチ（もし来たら）を待ちます。

— llrs 2018年