相関はデータの定常性を前提としていますか?


27

市場間分析は、異なる市場間の関係を見つけることにより、市場の行動をモデル化する方法です。多くの場合、相関関係は、S&P 500と30年物米国債などの2つの市場間で計算されます。これらの計算は多くの場合、価格データに基づいていないため、定常時系列の定義に適合しないことは誰にとっても明らかです。

(代わりにリターンを使用して)可能な解決策はありませんが、データが非定常である相関の計算は有効な統計計算でもありますか?

このような相関計算はやや信頼できない、または単なるナンセンスだと思いますか?


1
「有効な統計計算」とはどういう意味ですか。何かの有効な統計(推定)計算を言う必要があります。ここで何かが非常に重要です。相関は、2つのデータセット間の線形関係の有効な計算です。なぜ定常性が必要なのかわかりませんが、自己相関を意味していましたか?
ロビンギラード

2
あなたの質問により適した新しいサイト:quant.stackexchange.comがあります。これで、計算と解釈が明らかに混同されています。
mpiktas

@mpiktas、クオンツコミュニティは、リターンの定常性と価格の非定常性のために、リターン対価格を使用することに決めています。ここで、なぜそうなるべきかを直感的に説明する以上のものを求めています。
ミルクトレーダー

@robin、統計分析に疑問を抱かせる可能性のあるものがいくつかあります。操作されたデータなどのより明らかなことと同様に、サンプルサイズが頭に浮かびます。データの非定常性は相関計算に疑問を投げかけますか?
ミルクトレーダー

計算ではなく、相関が高くない場合の解釈かもしれません。それが高ければ、それは高い相関(すなわち、高い線形関係)を意味し、二つの非stationnary時系列は言う(Xt)及び(Yt)潜在的に高い(例えば、相関させることができるXt=Yt
ロビンはジラール

回答:


37

相関は線形関係を測定します。非公式の文脈では、関係は安定したものを意味します。定常変数のサンプル相関を計算し、利用可能なデータポイントの数を増やすと、このサンプル相関は真の相関になります。

通常はランダムウォークである価格の場合、サンプル相関はランダム変数になる傾向があることを示すことができます。これは、どれだけ多くのデータを保持しても、結果は常に異なることを意味します。

注:数学を使わずに数学的な直観を表現してみました。数学的な観点からは、説明は非常に明確です。定常プロセスのサンプルモーメントは、確率が定数に収束します。ランダムウォークのサンプルモーメントは、ランダム変数であるブラウン運動の積分に収束します。関係は通常、ランダム変数ではなく数値として表されるため、非定常変数の相関を計算しない理由が明らかになります。

更新 2つの変数間の相関に関心があるため、最初にそれらが定常プロセスから来ると仮定します。定常性は、E Z tおよびc o v Z tZ t htに依存しないことを意味します。相関関係Zt=(Xt,Yt)EZtcov(Zt,Zth)t

corr(Xt,Yt)=cov(Xt,Yt)DXtDYt

また、式のすべての量はに依存しない行列c o v Z tから取得されるため、tはtに依存しません。したがって、サンプル相関の計算tcov(Zt)t

なる感覚、我々は、サンプルの相関が推定することを合理的期待有することができるのでρ=CORRXをtYt。これは、一定の条件を満たし、固定プロセスのために我々は持っているので、この希望は、根拠のないではないことが判明ρを

ρ^=1Tt=1T(XtX¯)(YtY¯)1T2t=1T(XtX¯)2t=1T(YtY¯)2
ρ=corr(Xt,Yt)、確率で T 。さらにρ^ρT分布で、我々は約仮説をテストできるようにρをT(ρ^ρ)N(0,σρ2)ρ

ここで、が静止していないと仮定します。次に、c o r r X tY ttに依存します。だから我々は、サイズのサンプルを観察するときTを推定するために、我々 potentialy必要性T異なる相関ρ トンを。これには、最良のシナリオでは、我々は唯一のいくつかの機能を推定することができ、もちろん実行不可能であるρ トンを、このような平均値や分散など。しかし、結果には理にかなった解釈がないかもしれません。Ztcorr(Xt,Yt)tTTρtρt

次に、おそらく最も研究されている非定常プロセスのランダムウォークの相関関係で何が起こるかを調べてみましょう。Z t = t s = 1U tV t)の場合プロセスをランダムウォークと呼びます。ここで、C t = U tV tは定常プロセスです。簡単にするため、E C t = 0と仮定します。それからZt=(Xt,Yt)Zt=s=1t(Ut,Vt)Ct=(Ut,Vt)ECt=0

corr(XtYt)=EXtYtDXtDYt=Es=1tUts=1tVtDs=1tUtDs=1tVt

To simplify matters further, assume that Ct=(Ut,Vt) is a white noise. This means that all correlations E(CtCt+h) are zero for h>0. Note that this does not restrict corr(Ut,Vt) to zero.

Then

corr(Xt,Yt)=tEUtVtt2DUtDVt=corr(U0,V0).

So far so good, though the process is not stationary, correlation makes sense, although we had to make same restrictive assumptions.

Now to see what happens to sample correlation we will need to use the following fact about random walks, called functional central limit theorem:

1TZ[Ts]=1Tt=1[Ts]Ct(cov(C0))1/2Ws,
in distribution, where s[0,1] and Ws=(W1s,W2s) is bivariate Brownian motion (two-dimensional Wiener process). For convenience introduce definition Ms=(M1s,M2s)=(cov(C0))1/2Ws

簡単にするために、サンプル相関を次のように定義します。

ρ^=1Tt=1TXtYt1Tt=1TXt21Tt=1TYt2

Let us start with the variances. We have

E1Tt=1TXt2=1TEt=1T(s=1tUt)2=1Tt=1TtσU2=σUT+12.

This goes to infinity as T increases, so we hit the first problem, sample variance does not converge. On the other hand continuous mapping theorem in conjunction with functional central limit theorem gives us

1T2t=1TXt2=t=1T1T(1Ts=1tUt)201M1s2ds
where convergence is convergence in distribution, as T.

Similarly we get

1T2t=1TYt201M2s2ds
and
1T2t=1TXtYt01M1sM2sds

So finally for sample correlation of our random walk we get

ρ^01M1sM2sds01M1s2ds01M2s2ds
in distribution as T.

So although correlation is well defined, sample correlation does not converge towards it, as in stationary process case. Instead it converges to a certain random variable.


1
The mathematical point of view explanation is what I was looking for. It gives me something to contemplate and explore further. Thanks.
Milktrader

1
This response seems to sidestep the original question: Aren't you just saying that yes, calculating correlation makes sense for stationary processes?
whuber

1
@whuber, I was answering the question having in mind the comment, but I reread the question again and as far as I understand the OP asks about calculation of correlation for non-stationary data. Calculation of correlation for stationary processes makes sense, all the macroeconometric analysis (VAR, VECM) relies on that.
mpiktas

I'll try to clarify my question with a response.
whuber

3
@whuber my take away from the answer is that a correlation based on non-stationary data yields a random variable, which may or may not be useful. Correlation based on stationary data converges to a constant. This may explain why traders are attracted to "x-day rolling correlation" because the correlated behavior is fleeting and spurious. Whether "x-day rolling correlation" is valid or useful is for another question.
Milktrader

13

...is the computation of correlation whose data is non-stationary even a valid statistical calculation?

Let W be a discrete random walk. Pick a positive number h. Define the processes P and V by P(0)=1, P(t+1)=P(t) if V(t)>h, and otherwise P(t+1)=P(t); and V(t)=P(t)W(t). In other words, V starts out identical to W but every time V rises above h, it switches signs (otherwise emulating W in all respects).

enter image description here

(In this figure (for h=5) W is blue and V is red. There are four switches in sign.)

In effect, over short periods of time V tends to be either perfectly correlated with W or perfectly anticorrelated with it; however, using a correlation function to describe the relationship between V and W wouldn't be useful (a word that perhaps more aptly captures the problem than "unreliable" or "nonsense").

Mathematica code to produce the figure:

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]

it is good that your answer points that out but I wouldn't say the process are correlated, I would say they are dependent. This is the point. Calculation of correlation is valide and here it will say "no correlation" and we all know this does not mean "no dependence".
robin girard

1
@robin That's a good point, but I constructed this example specifically so that for potentially long periods of time these two processes are perfectly correlated. The issue is not one of dependence versus correlation but inherently is related to a subtler phenomenon: that the relationship between the processes changes at random periods. That, in a nutshell, is exactly what can happen in real markets (or at least we ought to worry that it can happen!).
whuber

@whubert yes, and this is a very good example showing that there are processes that have very high correlation for potentially long periods of time and still are not correlated at all (but highly dependent) when regarding the larger temporal scale.
robin girard

2
@robin girard, I think the key here is that for non-stationary processes the theoretical correlation varies with time, when for the stationary processes theoretical correlation stays the same. So with sample correlation which basically is one number, it is impossible to capture the variation of true correlations in case of non-stationary processes.
mpiktas
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.