ランダムウォークが相互相関しているのはなぜですか?


27

平均して、ピアソン相関係数の絶対値は、ウォークの長さに関係なく、任意のペアの独立したランダムウォークに近い定数であることがわかりました。0.560.42

誰かがこの現象を説明できますか?

ランダムなシーケンスのように、歩行の長さが長くなるにつれて相関が小さくなると予想しました。

私の実験では、ステップ平均0とステップ標準偏差1のランダムガウスウォークを使用しました。

更新:

データをセンタリングするのを忘れていたので、0.56代わりにでした0.42

相関を計算するPythonスクリプトは次のとおりです。

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))

私が最初に考えたのは、歩行が長くなるにつれて、より大きな大きさの値を取得することが可能になり、その相関関係が明らかになっているということです。
ジョンポール

しかし、これは任意のランダムシーケンスで機能しますが、あなたが正しいことを理解していれば、ランダムウォークのみがその一定の相関関係を持っています。
アダム

4
これは単なる「ランダムシーケンス」ではありません。各項は前の項からわずか1ステップ離れているため、相関は非常に高くなります。また、計算している相関係数は、関連するランダム変数の相関係数ではないことに注意してください。これは、シーケンスの相関係数(単にペアのデータとして考えられます)であり、さまざまな平方とすべてのシーケンス内の用語。
whuber

10
ランダムウォーク(1つのシリーズ内にないシリーズ間)間の相関関係について話していますか?その場合、独立したランダムウォークは統合されているが、統合されていないためです。これは、スプリアス相関が発生することでよく知られている状況です。
クリスハウグ

8
最初の違いをとると、相関関係はありません。ここでは、定常性の欠如が重要です。
ポール

回答:


24

独立したプロセスは相関していません!場合Yは、tは独立したランダムウォークのとおりです。XtYt

  • 時間通りに無条件の相関係数は存在しません。(については話さないでください。)Corr(X,Y)
  • 任意の時間について、Corr X tY tは実際に0です。tCorr(Xt,Yt)
  • しかし、時系列平均に基づくサンプル統計は、何にも収束しません!長期間にわたる複数の観測値の平均に基づいて計算したサンプル相関係数は無意味です。

直感的に、あなたは(間違って)推測するかもしれません:

  1. 2つのプロセス{ Y t }の独立性は、それらの相関がゼロであることを意味します。(2つのランダムウォークの場合、Corr X Y は存在しません。){Xt}{Yt}Corr(X,Y)
  2. 時系列、サンプル相関ρ X Y(時系列を用いて算出し、すなわち相関係数などのサンプル統計^ μ X = 1ρ^XY)集団相関係数に収束するρXYとしてTμX^=1Tτ=1TXτρXYT

問題は、これらのステートメントのどちらもランダムウォークに当てはまらないことです!(これらは、より適切に動作するプロセスに当てはまります。)

非定常プロセスの場合:

  • 特定の2つの特定の時点でのプロセス{ Y t }の相関関係について話すことができます(たとえば、Corr X 2Y 3は完全に賢明なステートメントです)。{Xt}{Yt}Corr(X2,Y3)
  • しかし、2つのシリーズの相関関係を時間通りに無条件に話すのは意味がありません!は明確な意味はありません。Corr(X,Y)

ランダムウォークの場合の問題は?

  1. ランダムウォークの場合、E [ X ]などの無条件の人口モーメント(つまり、時間依存しない)は存在しません。(いくつかの緩い意味では、それらは無限である。)同様に、無条件相関係数ρ X Y二つの独立したランダムウォークの間はゼロではありません。実際には存在しません!tE[X]ρXY
  2. エルゴード定理の仮定は適用されず、さまざまな時系列平均(例:していないとして、何に向かって収束T1TτXτT
    • 定常シーケンスの場合、時系列平均は最終的には無条件の平均に収束します。しかし、非定常シーケンスの場合、時間通りに無条件であるという意味はありません!

時間の経過に伴う2つの独立したランダムウォーク(X 2など、およびY 1Y 2など)のさまざまな観測値があり、サンプル相関係数を計算すると、数値が得られます。11の間。ただし、人口相関係数の近似値ではありません(存在しません)。X1X2Y1Y211

代わりに(からの時系列平均値を用いて計算し、T = 1T = T()内の値をとる基本的にランダムな変数になるだろう[ - 1 1 ])は、2つの特定のパスを反映します偶然にかかったランダムウォーク(つまり、サンプル空間Ωから引き出されたドローωで定義されたパス)。ρ^XY(T)t=1t=T[1,1]ωΩ

  • Y tの両方が偶然同じ方向にふらついた場合、偽の正の関係が検出されます。XtYt
  • 場合Yのtは異なる方向にさまよっ、あなたは偽の負の関係を検出します。XtYt
  • 場合Yのtは互いに十分に渡ってさまように起こった、あなたはゼロに近い関係を検出します。XtYt

これについては、Googleの用語で確認できますspurious regression random walk

ランダムウォークは静止していないと、時間にわたり平均を取っあなたが描くIIDを取ることによって得るだろうかに収束しないωをサンプルスペース内からΩ。上記のコメントで述べたように、最初に違い取ることができるΔ X T = X Tを - X T - 1とランダムウォークのために、そのプロセス{ Δ X tは }静止しているが。tωΩΔxt=xtxt1{Δxt}

全体像:

経時的な複数の観測は、サンプル空間からの複数の描画と同じではありません!

離散時刻ことリコール確率過程 時間(両方の関数であるT N)とサンプル空間Ω{Xt}tNΩ

時間平均がサンプル空間Ωの期待値に収束するためには、定常エルゴード性が必要です。これは、多くの時系列分析の中心的な問題です。そして、ランダムウォークは定常的なプロセスではありません。tΩ

WHuberの答えへの接続:

時間tで平均を取るように強制する代わりに、複数のシミュレーションで平均を取ることができる(つまり、から複数のドローを取る)場合、多くの問題が消えます。Ωt

あなたはもちろん定義できρ X YT 上で計算標本相関係数としてX 1 ... X T及びY 1 ... Y Tとこれも確率的なプロセスであろう。ρ^XY(t)X1XtY1Yt

ランダム変数を次のように定義できます。Zt

Zt=|ρ^XY(t)|

始まる2つのランダムウォークについてN0 1 刻み、それを見つけるのは簡単だEは、[ Zが10000 ]シミュレーションにより(すなわち、複数から引く取っΩ。)0N(0,1)E[Z10000]Ω

以下では、サンプルピアソン相関係数の10,000計算のシミュレーションを実行しました。毎回:

  • シミュレートされた2万の長ランダムウォーク(正規分布の増分から引くと)。N(0,1)
  • それらの間のサンプル相関係数を計算しました。

以下は、計算された10000個の相関係数の経験的分布を示すヒストグラムです。

enter image description here

あなたは明らかにランダム変数ことを観察することができρ X Y10000 区間内のすべての場所にすることができ、[ - 1 1 ]XYの 2つの固定パスの場合、時系列の長さが増加してもサンプル相関係数は何にも収束しません。ρ^XY(10000)[1,1]XY

一方、特定の時間(例えば。のために)、サンプルの相関係数はランダム変数である有限平均等...私は絶対値を取り、すべてのシミュレーション上の平均値を計算した場合は、約.42を計算します。なぜあなたがこれをしたいのか、なぜこれがまったく意味があるのか​​分かりませんが、もちろんできます。t=10,000

コード:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))

サンプルサイズは明らかに有限ではないため、存在しないさまざまな量についてのあなたの主張は不可解です。OPで記述された状況にシンボルがどのように適用されるかを確認するのは困難です。
whuber

サンプルサイズは決して無限になります!コンピューターでサンプルを描いている限りではありません(純粋な数学でのみ、そのような仮定を立てることができます)。そして、それはどういう意味ですか:あなたは無限に多くの点を持っているので、それは収束しませんか?どこでそれを読みましたか?
-Mayou36

@whuberうまくいけば、このバージョンは少し明確になります。OPは、ランダムなウォークの2つの有限セグメント間のサンプル相関係数(時系列平均に基づく)が、巨大な長さの時系列であってもゼロではない理由を尋ねていると思います。基本的な問題は、ランダムウォークの場合、さまざまな人口モーメントが存在せず、時系列平均が何にも収束しないことです。
マシューガン

それでも、固定すべては有限です。さらに、nが増加するにつれて、絶対サンプル相関係数の期待値収束します!また、質問はその係数の絶対値に関することに注意してください。その期待値は(明らかに)ゼロです。nn
whuber

1
@whuber固定時系列長場合、すべてが有限であるということですか?(はい、私はそれに同意します。)サンプル相関の期待はゼロです(はい、私はそれに同意します)。Tしかし上昇、サンプル相関はかかわらずしない一点に収束します。任意の長さの2つのランダムウォークセグメントの場合、サンプル相関係数は[0、1]の一様分布からのランダムな引き込みからそれほど遠くありません(ヒストグラムを参照)。tt
マシューガン

15

正確な結果を得るために必要な数学は厄介ですが、予想される2乗相関係数の正確な値を比較的簡単に導き出すことができます。それは近い値理由を説明するのに役立ちます現れて、なぜ長増加し続けるnはランダムウォークのは、物事を変更しません。1/2n

標準用語について混乱する可能性があります。質問で言及されている絶対相関と、それを構成する統計(分散および共分散)は、ランダムウォークの実現の任意のペアに適用できるです。この質問は、多くの独立した実現を見たときに何が起こるかに関するものです。そのためには、ランダムウォークプロセスに期待する必要があります。


(編集)

先に進む前に、グラフィカルな洞察を皆さんと共有したいと思います。 一対の独立したランダムウォークは、2次元のランダムウォークです。我々は、それぞれの手順では、そのパスをプロットすることができるXはTYのTするX T + 1Y T Yの値は標準偏差を等しく、最小二乗の適合重畳Y(X,Y)(Xt,Yt)。このパスが下に向かう場合(通常のXY軸にプロットされた左から右)、相関の絶対値を調べるために、すべてのY値を否定しましょう。軸上のプロット散歩を与えるように寸法Xをし、Xt+1,Yt+1YXYYます。これらの線の勾配は相関係数の絶対値であり、常に01の間にあります。X01

この図は、それぞれ長さ960のそのような歩行を示しています(標準の標準の違いを使用)。小さな白丸が出発点を示します。暗い円は最終的な場所を示します。15960

Figure

これらの斜面はかなり大きくなる傾向があります。この多くの点の完全にランダムな散布図は、常にゼロに非常に近い勾配持ちます。ここで出現するパターンを説明する必要がある場合、ほとんどの2Dランダムウォークは、ある場所から別の場所に徐々に移行すると言えます。 (ただし、これらは必ずしも開始位置と終了位置ではありません!)約半分の時間で、その移行は対角線方向に発生し、それに応じて勾配が大きくなります。

この投稿の残りの部分では、この状況の分析をスケッチします。


ランダムウォークは、W 1W 2W nの部分和のシーケンスです。ここで、W i(Xi)(W1,W2,,Wn)Wiは、独立に分布するゼロ平均変数です。彼らの共通の分散が可能ましょうσ2

実現ような歩行のx nでは、「分散」は、これがデータセットであるかのように計算されます。x=(x1,,xn)

V(x)=1n(xix¯)2.

この値を計算する良い方法は、すべての平方差の平均の半分を取ることです。

V(x)=1n(n1)j>i(xjxi)2.

がランダムウォークXの結果として表示される場合xXステップ、この期待はn

E(V(X))=1n(n1)j>iE(XjXi)2.

違いはiid変数の合計です。

XjXi=Wi+1+Wi+2++Wj.

広場を展開し、期待をかけます。ので、独立しており、ゼロ手段を有する、すべての交差項の期待値はゼロです。W kのような用語のみが残り、その期待値はWkWk。かくしてσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

それは簡単に続きます

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

2つの独立した実現yの間の共分散xy再びランダム変数ではなくデータセットの意味で-は同じ手法で計算できます(ただし、より多くの代数的作業が必要です; 4倍の合計が含まれます)。その結果、予想される共分散の二乗

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

その結果、XステップYの間の2乗相関係数の期待値は、nステップで取り出されます。XYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

これは一定ではありませんが、制限値に急速に近づきます。したがって、その平方根は約0.47であり、予想されるρの絶対値に近似します9/400.47(そして過小評価します)。ρ(n)


計算エラーを犯したと確信していますが、シミュレーションは漸近精度を裏付けています。ヒストグラムを示す以下の結果でのための1000の破線の青い線は、式の値を表示しながら、シミュレーション毎に、垂直赤い線は、手段を示します。明らかに間違っていますが、漸近的には正しいです。明らかに全体の分布ρ 2nがのような限界に近づいている、Nが増加します。同様に、|の分布 ρ n | (これは関心のある量です)が限界に近づきます。ρ2(n)1000ρ2(n)n|ρ(n)|

Figure

これは、R図を生成するコードです。

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}

E[ρ2]T=100

ΩXt

1
9/40, whereas naively one would expect that if one takes two very long random walks they should have near-zero correlation, i.e. naively one would expect the distribution of correlations to shrink to zero as n grows?
amoeba says Reinstate Monica

@amoeba First, I don't fully believe the value of 9/40, but I know it's close to correct. For the intuition, consider that two independent walks Xt and Yt are a random walk (Xt,Yt) in two dimensions. Take any random scatterplot in 2D and measure its eccentricity somehow. It will be rare for it to be perfectly circular. Thus, we expect the mean eccentricity to be positive. That there is a limiting distribution for random walks merely reflects the self-similar "fractal" nature of this 2D walk.
whuber

2
An asymptotic analysis of the issues discussed here may be found in Phillips (1986), Theorem 1e.
Christoph Hanck
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.