一連の独立した乱数の差分のL番目の階数をとるときの高い自己相関

9

この質問をより詳細に説明するために、まず私のアプローチを詳しく説明します。

一連の独立した乱数をシミュレートしました。 $X = \{x_1,...,x_N\}$
次に、倍の差を取ります。つまり、変数を作成します。 $L$

$dX_{1} = \{X(2)-X(1),...,X(N)-X(N-1)\}$

$dX_{2} = \{dX_{1}(2)-dX_{1}(1),...,dX_{1}(N-1)-dX_{1}(N-1-1)\}$

$...$

$dX_{L} = \{dX_{L-1}(2)-dX_{L-1}(1),...,dX_{L-1}(N-L)-dX_{L-1}(N-L-1)\}$

が大きくなると、の（絶対）自己相関が増加することがます。ACは場合でも0.99に近づきます。つまり、L次の差をとるとき、最初は独立したシーケンスから、一連の非常に依存する数（シーケンス）を作成します。 $dX_{L}$ $L$ $L >100$

これが私の観察を説明するグラフです。

私の質問：

このアプローチの背後にある理論、およびその含意またはそのアプリケーションへの応用はありますか？
これは、このアプローチが（コンピューターの）疑似乱数ジェネレーターの弱点を悪用していることを示していますか？つまり、生成された「ランダム」シーケンスは完全にランダムではなく、これは私のアプローチから示されている/証明されていますか？
シーケンスの次の数（つまり）を予測するために、L次の差異の高い自己相関を利用できますか？つまり、次の数を予測できる場合（たとえば、線形回帰によって）、累積合計の倍をとることによって、推定シーケンスを推定できます。これは実行可能なアプローチですか？ $X(N+1)$ $dX_{L}$ $X(i)$ $L$

客観的 注意は、私が予測しようとしていることをが、番号がindependentalyとランダムに生成されているので、これは（の低交流は非常に困難である）。 $X(N+1)$ $N$

— ジョンアンドリュース
ソース

申し訳ありませんが、2度編集しましたが、分からないことがたくさんあります。問題が疑似乱数ジェネレータにあるのではないかと思います。一様乱数を他の分布に変換していますか？あなたは違いを取っていますが、なぜ変数が独立していると仮定されているのですか？なぜシーケンス内の数値を予測しようとしているのですか？微分は通常、多項式トレンドを取り除くために行われます。

— Michael R. Chernick

@Michael私の目標は、分布を変更することではなく、シーケンスの次の数を予測することです。X（N + 1）を予測しようとすることは困難です。これは、シーケンスの数が独立していてランダムであるためです（低いオートコア）。だから私はシーケンスをL倍し、Lが増加するとACが増加することを発見しました。これは、これが何を意味するのか、そしてそれが悪用される可能性があるのかと疑問に思いました。

— JohnAndrews 16

説明のためにグラフをいくつか追加しました。

— JohnAndrews 16

1

次数の違いは、幅ウィンドウ全体での元の値の線形結合であるため、当然、違いの連続する値の間には強い関係があります。あなたは基本的にあなたがすでに知っている値からの小さな偏差を予測しているので、これを利用する方法はありません。

L

$L$

L + 1

$L+1$

— whuber

12

理論

自己相関に意味がある場合、元の確率変数を仮定する必要があります $X_0, X_1, \ldots, X_N$ 測定値の単位を適切に選択することで、分散が同じになるため、1に設定できます。の式から $L^\text{th}$ 有限差分

X_{i}^{(L)} = (Δ^{L} (X))_{i} = \sum_{k = 0}^{L} (- 1)^{L - k} (\binom{L}{k}) X_{i + k}

$X^{(L)}_i=(\Delta^L(X))_i = \sum_{k=0}^L (-1)^{L-k}\binom{L}{k} X_{i+k}$

以下のためのとの独立性我々は容易に計算 $0 \le i \le N-L$ $X_i$

\begin{matrix} (1) & Var (X_{i}^{(L)}) = \sum_{k = 0}^{L} {(\binom{L}{k})}^{2} = (\binom{2 L}{L}) \end{matrix}

$\operatorname{Var}(X^{(L)}_i) = \sum_{k=0}^L \binom{L}{k}^2 = \binom{2L}{L}\tag{1}$

そして、および場合、 $0 \lt j \lt L$ $i \le N-L-j$

\begin{matrix} (2) & Cov (X_{i}^{(L)}, X_{i + j}^{(L)}) = (- 1)^{j} \sum_{k = 0}^{L - j} (\binom{L}{k}) (\binom{L}{k + j}) = (- 1)^{j} \frac{4^{L} (\binom{L}{j}) j! Γ (L + 1 / 2)}{\sqrt{π} (L + j)!} . \end{matrix}

$\operatorname{Cov}(X^{(L)}_i, X^{(L)}_{i+j}) = (-1)^{j}\sum_{k=0}^{L-j} \binom{L}{k}\binom{L}{k+j} = (-1)^{j}\frac{4^L \binom{L}{j} j!\Gamma(L+1/2)}{\sqrt{\pi}(L+j)!}.\tag{2}$

分割によって lag-与えるシリアル相関。これは、奇数のための負のでものための正。 $(2)$ $(1)$ $j$ $\rho_j$ $j$ $j$

スターリングの公式は容易に解釈可能な近似を与える

\log (| ρ_{j} |) \approx - (\frac{j^{2}}{L} - \frac{j^{2}}{2 L^{2}} + \frac{j^{2} (j^{2} + 1)}{6 L^{3}} - \frac{j^{4}}{4 L^{4}} + O (L^{- 5}) O (j^{6}))

$\log(|\rho_j|) \approx -\left(\frac{j^2}{L} - \frac{j^2}{2 L^2} + \frac{j^2 \left(j^2+1\right)}{6L^3}-\frac{j^4}{4 L^4} + O(L^{-5})O(j^6)\right)$

関数として、その大きさは、ガウス（「ベル型」）曲線です。これは、連続する差分のような拡散ベースの手順で予想されるとおりです。プロットは次の経由関数として、系列相関がどれほど速く近づくかを示します。上から順に、ドットは表します経由。 $j$ $|\rho_1|$ $|\rho_5|$ $L$ $1$ $|\rho_1|$ $|\rho_5|$

結論

これらは純粋に数学的な関係であるため、についてはほとんど明らかになりません。特に、すべての有限差分は元の変数の線形結合であるため、からを予測するために使用できる追加情報は提供されません。 $X_i$ $X_{N+1}$ $X_0, X_1, \ldots, X_N$

実用的な観察

成長し、線形結合の係数は、指数関数的に成長します。各は交互の合計であることに注意してください。具体的には、合計の中央に、近い比較的大きな係数が表示されます。実際のデータが少しのランダムノイズの影響を受けることを考慮してください。このノイズは、これらの大きな二項係数によって乗算され、その後、これらの大きな結果は、交互の加算と減算によってほぼキャンセルされます。結果として、が大きい場合にこのような有限差分を計算すると、 $L$ $X^{(L)}_i$ $\binom{L}{L/2}$ $L$ データ内のすべての情報を一掃する傾向があり、測定誤差や浮動小数点丸め誤差などのわずかな量のノイズを反映するだけです。との質問に示されている違いの明らかなパターンは、ほぼ確実に意味のある情報を提供しません。（の2項係数はとように大きくなり、倍精度浮動小数点エラーが計算を支配することになります。） $L=100$ $L=168$ $L=100$ $10^{29}$ $1$

— whuber
ソース

3

非常に明確であり、これを読んだ後、それは完全に理にかなっています。あなたの最後の点で、確かに私は大きなに対して小さな数（例えば0.00001）を追加してテストしましたが、これは驚くべきことに、これは大きな係数のためにに非常に大きな影響を与えることがわかりました。言い換えると、次のシーケンスを予測するには非常に正確な予測が必要ですが、大きなシーケンスには追加情報がないため、それは不可能な作業のように見えます。

L

$L$

X_{i}

$X_i$

L

$L$

— JohnAndrews 16

3

これはコメントですが、せいぜいあなたの質問を解決するための手がかりかもしれませんが、私の評判ではコメントを投稿できません。

次のコードで標準の法線からの描画を使用して、スタタで実験を再現しました。

clear all
set obs 100000

gen t = _n
tsset t

drawnorm x, n(100000)

forvalues i = 1(1)100 {
generate D`i' = D`i'.x
}

差分変数のコレログラムを見て、なぜ信頼帯が非常に小さいのか疑問に思いました。スタタコレログラムでこのような小さな信頼帯を見たことはありません。何か案は？

「絶対」を正しく解釈している場合、信頼帯が非常に小さいため、最も遠いラグからの小さな自己相関も絶対自己相関でカウントされているため、これが手掛かりになる可能性があると考えていました。

これが私のdX_10のコレログラムです...

...そしてここでも、最初の10ラグにズームインしています...

— 吸う
ソース

グラフを見ると、ラグが小さいと信頼帯も小さくなりますか？差分変数のAC（1）のみを使用します。絶対とは、単に負または正のACを意味します。

— JohnAndrews 16

はい、dX_1からdX_9のバンドも非常に小さいです。そして、申し訳ありませんが、私は「絶対的」にあなたがどういうわけかすべてのラグの相関の合計を意味すると考えました。

— 16

AC（1）は、あなたが言ったように私たちの違いが大きいほど確かに高くなります...興味深い。

— 16

3

違いは互いに独立していないため、これは予想されることです。例えば、に直接比例する一方に反比例するの連続する要素の定義は、要素をこの逆の方法で共有するため、それらは互いに逆相関していると予想されます。実際、より高い次数の差、連続する値はの要素のより高い部分を共有し、それらの定義に入り、それらのが増加します。ただし、共有要素（ $dX_1(1) \equiv X(2) - X(1)$ $X(2)$ $dX_1(2) \equiv X(3) - X(2)$ $X(2).$ $dX_1$ $X$ $dX_i$ $X$ $X(2)$ 私の例では）この要素を含む差異を計算することはできません。したがって、既知の要素とは独立して生成された未知の要素を予測するために、差分の反相関を使用することはできません。 $X$

— ニル
ソース