正規確率変数の合計


7

n個の独立した通常のrvのサンプルを考えます。それらのサブセットの合計が残りのrvの合計よりも大きくなる確率を計算する体系的な方法を特定したいと思います。例:魚の個体数。平均:10 kg、標準偏差:3 kg。私は5匹の魚(n = 5)を釣ります。2匹の魚が他の3匹の魚よりも重くなる確率はどのくらいですか?従うことができるステップは、魚のすべての組み合わせの確率を計算してから、それらの和集合に包含除外式を使用することです。もっと賢いものはありますか?注:4匹の魚を考慮した場合、2匹が他の2匹よりも重い確率は1になります。これはどのようにすぐに計算できますか?答えてくれてありがとう。


1
あなたは確かにシミュレーションを行うことができます。
Peter Flom

@whuber-特定の2つを念頭に置いている(または2つをランダムに選択する)と想定して、すばらしい答えを出します。リーディングでの最初のパスは、合計が残りよりも大きい2のサブセットがあるかどうかを尋ねていると考えていました(4匹の魚がいる場合、確率は1であるという彼らの主張によって証明されます)。最大の2つの分布と残りの分布の比較を確認したいので、注文統計に飛び込む必要があります。シミュレーションは、この状況での確率がおよそ.464であることを示唆しています。
Dason

1
@デイソンそれを指摘してくれてありがとう:それは非常にもっともらしい解釈であり、私が思いつかなかったものです。また、ピーターがシミュレーションを提案した理由も説明しています。私たちが求めて問題をリフレームすることができますので、私は、順序統計量について、あなたがしている正しいと思う「の合計可能性が何であるかの最大の値が和超える最小のものは?」値を積分として書き留めることもできますが、一般的には数値評価が必要であり、が大きくなるとすぐに煩わしくなります。k nnkn
whuber

1
@Manos-1番目と3番目の合計が2番目、4番目、5番目より大きい場合... 1番目と2番目の合計が3番目、4番目、5番目より大きいため、基準も満たします。したがって、サブセットが基準を満たすかどうかを確認するという観点からは、上位kの合計が下位nkよりも大きいかどうかを確認するだけで済みます。
Dason

1
彼らはできました。しかし、whuberが言うように、それは簡単な問題ではありません。シミュレーションにより、特定の状況での結果がはるかに簡単になります。
Dason

回答:


7

あなたの例は、変数独立しているだけでなく、同じ正規分布も持っていることを示唆しています。そのパラメーターを(平均)および(分散)とし、サブセットがこれらの変数ので構成されると仮定します。がこのサブセットになるように変数にインデックスをもできます。nX1,X2,,Xnμσ2kX1,,Xk

質問は、最初の変数の合計が残りの合計と等しいかそれを超える可能性を計算するように求めます。k

pn,k(μ,σ)=Pr(X1++XkXk+1++Xn)=Pr(Y0)

どこ

Y=(X1++Xk)+(Xk+1++Xn).

Yは独立した正規変数の線形結合であるため、正規分布がありますが、どれが正しい分布ですか?期待と分散の法則はすぐに私たちに教えます

E[Y]=kμ+(nk)μ=(n2k)μ

そして

Var(Y)=kσ2+(nk)σ2=nσ2.

したがって、は、分布関数標準正規分布があります。

Z=Y(n2k)μσn
Φ,

pn,k(μ,σ)=Pr(Y0)=Pr(Z(n2k)μσn)=Φ((n2k)μσn).

質問では、および、n=5,k=2,μ=10,σ=3,

p5,2(10,3)=Φ((52(2))10310)0.0680186.


汎化

正規分布が異なる場合や相関がある場合でも、この分析を変更する必要はほとんどありません。線形結合が正規分布であることを保証するために、変量正規分布があると仮定するだけで済みます。計算は同じ方法で実行され、同様の式になります。Xin


小切手

コメンターはシミュレーションでこれを解決することを提案しました。これは解決策ではありませんが、解決策をすばやく確認するための適切な方法です。したがって、次のように、Rシミュレーションの入力を任意の方法で確立できます。

n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results

そして、そのようなデータをシミュレートし、合計を次の2つの行と比較します。

x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))

後処理は、1つの合計が他の合計を超えるシミュレーションデータセットの割合を見つけ、それを理論的なソリューションと比較することで構成されます。

se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)

この場合の出力は

Simulation     Theory    Z-score 
    0.0677     0.0680    -1.1900

一致は近く、小さな絶対Zスコアにより、理論的導出のエラーではなく、ランダムな変動に差異を起因することができます。


また、一般性を失うことなくあると仮定できます。直感的に、すべてを計算できますσ=1μσ
累積

@Acccumulation正解であり、続行するには良い方法です。実際、この事実は、問題を変更せずになるように測定単位を任意に設定できることを観察した直後に生じます。分析をかなり単純化しなかったので、これを説明する必要がないのは便利だと思いました。σ=1
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.