我々は、描画大きさの各サンプル、独立して正常から、分布。
次に、サンプルから、相互に最も高い(絶対)ピアソン相関を持つ2つのサンプルを選択します。
この相関の期待値は何ですか?
ありがとう[PSこれは宿題ではない]
我々は、描画大きさの各サンプル、独立して正常から、分布。
次に、サンプルから、相互に最も高い(絶対)ピアソン相関を持つ2つのサンプルを選択します。
この相関の期待値は何ですか?
ありがとう[PSこれは宿題ではない]
回答:
この問題に対処する次の記事を見つけました:Jiang、Tiefeng(2004)。サンプル相関行列の最大エントリの漸近分布。応用確率の年報、 14(2)、865-880
江は、統計量の漸近分布を示すここで、ρ I jはの間の相関であり、I番目とjの長さのランダムベクトル番目N(と)であります
ここで = LIM N → ∞ N / Nは、紙内に存在すると仮定して
どうやら、この結果は、十分な数の有限モーメントを持つ分布分布に当てはまります(編集:以下の@cardinalのコメントを参照)。Jiangは、これがタイプIの極値分布であることを指摘しています。場所と規模は
I型EVの分布の期待値はところ、γはオイラーの定数です。ただし、コメントで指摘されているように、分布の収束は、それ自体では、平均値の制限分布への収束を保証するものではありません。
この場合にそのような結果を表示できれば、 n L 2 n − 4 log n + log (log (n )の漸近的期待値であろう
これにより、最大二乗相関の漸近的期待値が得られますが、質問では最大絶対相関の期待値が求められます。そこで100%ではなく、近い。
1)シミュレーションに問題がある(可能性が高い)、2)筆記/代数に問題がある(可能性が高い)、または3)近似が妥当でない使用したおよびNの値。おそらく、この近似を使用して、OPがいくつかのシミュレーション結果を考慮に入れることができますか?
Further to the answer provided by @jmtroos, below are the details of my simulation, and a comparison with @jmtroos's derivation of the expectation from Jiang (2004), that is:
この期待値は、小規模のシミュレーション値を上回るようです 以下の大規模な そして、彼らは次のようにわずかに分岐するように見えます 増加します。ただし、増加は差が小さくなる、論文が分布が漸近的であると主張しているように、いろいろ試してみました。以下のシミュレーションでは、。私はRが初めてなので、コードを改善するためのヒントや提案は大歓迎です。
set.seed(1)
ns <- 500
# number of simulations for each N
n <- 200
# length of each vector
mu <- 0
sigma <- 1
# parameters for the distribution we simulate from
par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns
y<-vector(mode = "numeric")
#vector to store the mean correlations
k<- 1
#index for y
for (N in x) {
# loop over a range of N
dt <- matrix(nrow=n,ncol=N)
J <- vector(mode = "numeric")
# vector to store the simulated largest absolute
# correlations for each N
for (j in 1:ns) {
# for each N, simulated ns times
for (i in 1:N) {
dt[,i] <- rnorm(n,mu,sigma)
}
# perform the simulation
M<-matrix(cor(dt),nrow=N,ncol=N)
m <- M
diag(m) <- NA
J[j] <- max(abs(m), na.rm=TRUE)
# obtain the largest absolute correlation
# these 3 lines came from stackoverflow
}
hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4)))
y[k]<-mean(J)
k=k+1
}
lm1 <- lm(y~log(x))
summary(lm1)
logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations
# Jiang 2004 paper, computation:
gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)
plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation