あなたの例は、変数独立しているだけでなく、同じ正規分布も持っていることを示唆しています。そのパラメーターを(平均)および(分散)とし、サブセットがこれらの変数ので構成されると仮定します。がこのサブセットになるように変数にインデックスをもできます。nX1,X2,…,Xnμσ2kX1,…,Xk
質問は、最初の変数の合計が残りの合計と等しいかそれを超える可能性を計算するように求めます。k
pn,k(μ,σ)=Pr(X1+⋯+Xk≥Xk+1+⋯+Xn)=Pr(Y≤0)
どこ
Y=−(X1+⋯+Xk)+(Xk+1+⋯+Xn).
Yは独立した正規変数の線形結合であるため、正規分布がありますが、どれが正しい分布ですか?期待と分散の法則はすぐに私たちに教えます
E[Y]=−kμ+(n−k)μ=(n−2k)μ
そして
Var(Y)=kσ2+(n−k)σ2=nσ2.
したがって、は、分布関数標準正規分布があります。Z=Y−(n−2k)μσn−−√
Φ,
pn,k(μ,σ)=Pr(Y≤0)=Pr(Z≤−(n−2k)μσn−−√)=Φ(−(n−2k)μσn−−√).
質問では、および、n=5,k=2,μ=10,σ=3,
p5,2(10,3)=Φ(−(5−2(2))10310−−√)≈0.0680186.
汎化
正規分布が異なる場合や相関がある場合でも、この分析を変更する必要はほとんどありません。線形結合が正規分布であることを保証するために、変量正規分布があると仮定するだけで済みます。計算は同じ方法で実行され、同様の式になります。Xin
小切手
コメンターはシミュレーションでこれを解決することを提案しました。これは解決策ではありませんが、解決策をすばやく確認するための適切な方法です。したがって、次のように、R
シミュレーションの入力を任意の方法で確立できます。
n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results
そして、そのようなデータをシミュレートし、合計を次の2つの行と比較します。
x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))
後処理は、1つの合計が他の合計を超えるシミュレーションデータセットの割合を見つけ、それを理論的なソリューションと比較することで構成されます。
se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)
この場合の出力は
Simulation Theory Z-score
0.0677 0.0680 -1.1900
一致は近く、小さな絶対Zスコアにより、理論的導出のエラーではなく、ランダムな変動に差異を起因することができます。