平均の独立性と離散一様分布の分散


9

私の投稿の下のコメントで、Glen_bと私は、離散分布が必然的に平均と分散に依存している方法について議論していました。

正規分布では理にかなっています。私はあなたを伝える場合x¯、あなたはどのような手掛かりいないである、と私はあなたの言うならば、あなたはどのような手掛かりいないです。(母集団パラメーターではなく、サンプル統計を扱うように編集されています。)s2s2x¯

しかし、離散的な均一分布の場合、同じロジックが適用されませんか?エンドポイントの中心を推定するとスケールがわかりません。スケールを推定すると中心がわかりません。

私の考えで何が問題になっていますか?

編集

jbowmanのシミュレーションを行いました。次に、確率分布変換(私はそう思う)を実行して、周辺分布(コピュラの分離)の影響を受けずに関係を調べます。

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

ここに画像の説明を入力してください

RStudioに表示される小さな画像では、2番目のプロットは単位正方形全体が均一にカバーされているため、独立しています。ズームインすると、はっきりとした垂直の帯が現れます。これは離散性に関係していると私は考えるべきではないと思います。次に、連続一様分布で試してみました。(0,10)

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

ここに画像の説明を入力してください

これは、単位正方形全体に均一に点が分布しているように見えるので、とが独立していることに懐疑的です。x¯s2


それはあなたがそこで取った興味深いアプローチです、私はそれについて考えなければなりません。
jbowman

依存関係は、サンプルサイズが大きいほど(必然的に)弱くなるため、わかりにくくなります。n = 5、6、7のように、サンプルサイズを小さくしてみてください。見やすくなります。
Glen_b

@Glen_bそうですね。サンプルサイズを小さくすると、より明確な関係が生まれます。私が投稿した画像でも、右下隅と左下隅にいくつかのクラスタリングがあるように見えます。これは、小さいサンプルサイズのプロットに存在しています。2つのフォローアップ。1)母集団のパラメータは互いに独立して変化できるため、依存関係は必然的に弱まっていますか?2)統計に何らかの依存があることは間違っているように見えますが、明らかに依存しています。何が原因ですか?
デイブ

1
洞察を得る1つの方法は、ブルースのプロットの上部にある「角」に入るサンプルの特殊な特徴を調べることです。特に、n = 5では、すべての点が近いことにより、最大の分散が得られることに注意してください。 0または1ですが、観測値が5つあるため、一方の端に3つ、もう一方の端に2つ必要です。したがって、平均は0.4または0.6に近く、0.5に近くない必要があります(中央に1つの点を置くと、分散aビット)重い裾の分布がある場合、平均と分散の両方が最も極端な観測によって最も影響を受けます... ctd
Glen_b -Reinstate Monica

1
|x¯μ|s(X¯,sX2)

回答:


4

jbowmanの回答(+1)は、ストーリーの多くを物語っています。もう少しです。

(a)連続均一分布からのデータの場合、サンプルの平均とSDは無相関ですが、独立ではありません。プロットの「概要」は依存関係を強調しています。継続的な分布の中で、独立性は通常に対してのみ保持されます。

ここに画像の説明を入力してください

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

asP(X¯=a)>0,P(S=s)>0,P(X¯=a,X=s)=0.

ここに画像の説明を入力してください

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(c)丸められた正規分布は正規ではありません。離散性は依存を引き起こします。

ここに画像の説明を入力してください

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

Beta(.1,.1),Beta(1,1)Unif(0,1).

ここに画像の説明を入力してください

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

コメントごとの補遺。

ここに画像の説明を入力してください


x¯s2x¯=0s2=1s2=100

独立の基準は厳しいです。2つのRV間の独立性の欠如は、一方の情報を取得し、もう一方の値を知っていることを簡単に保証するものではありません。//(d)では、AまたはSのECDFが何を明らかにするかわからない //(d)の散布図は、多重度1、5、10、10、5、1(左から右)の5次元超立方体の32頂点の変換下の6つの「ポイント」、画像を示しています。多重度は、「上位2つ」のポイントが最も異なる理由を説明しています。
BruceET

XYρ=0.9x=1y11ρ=011

しかし、これは2つの標準法線間でほぼ線形の関係にあることです。サンプルの平均とSDはそれほど簡単ではありません。
BruceET

1
@Daveあなたが他を知っているとき、あなたは一方についての情報を持っています。たとえば、サンプルの分散が実際に大きい場合、サンプルの平均が実際に0.5に近くないことがわかります(たとえば、最初のプロットの上中央のギャップを参照)
Glen_b -Reinstate Monica

2

離散分布の場合、平均と分散が依存しているのではなく、分布のパラメーターを指定すると、サンプルの平均と分散が依存します。平均と分散自体は、分布のパラメーターの固定関数であり、「独立性」などの概念はそれらには適用されません。その結果、あなたは自分の誤った仮説的な質問をしているのです。

(x¯,s2)(1,2,,10)

ここに画像の説明を入力してください

s2x¯

もちろん、例は、リンクした投稿でグレンの推測を証明することはできません。独立したサンプル平均と分散を持つ離散分布は存在しないということです!


これは、統計とパラメータの比較に適しています。かなり広範囲にわたる編集を行いました。
Dave、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.