タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

3
不確実性のあるいくつかの測定の標準偏差
サンプリングレートが1 Hzの2時間のGPSデータが2つあります(7200測定)。データはの形式で与えられます。ここで、は測定の不確かさです。(X,Xσ,Y,Yσ,Z,Zσ)(バツ、バツσ、Y、Yσ、Z、Zσ)(X, X_\sigma, Y, Y_\sigma, Z, Z_\sigma)NσNσN_\sigma すべての測定値の平均(たとえば、これら2時間の平均Z値)をとると、その標準偏差はどうなりますか?もちろん、Z値から標準偏差を計算できますが、既知の測定の不確実性があるという事実を無視します... 編集:データはすべて同じステーションからのものであり、すべての座標は毎秒再測定されます。衛星の星座などにより、すべての測定値には異なる不確実性があります。私の分析の目的は、外部イベント(すなわち、地震)による変位を見つけることです。地震前の7200回の測定(2時間)と地震後2時間の平均をとり、その結果の差(高さなど)を計算します。この差の標準偏差を指定するには、2つの平均の標準偏差を知る必要があります。

2
異なるシリーズのARIMA対ARMA
R(2.15.2)では、時系列にARIMA(3,1,3)を1回、かつ時差のある時系列にARMA(3,3)を1回当てはめました。当てはめられたパラメータは異なります。これは、ARIMAの当てはめ方法に起因します。 また、ARMA(3,3)と同じデータにARIMA(3,0,3)をフィッティングしても、使用するフィッティング方法に関係なく、同じパラメーターにはなりません。 私は、ARMAと同じ適合係数を得るために、違いがどこから来て、どのパラメーターでARIMAに適合するか(もしあれば)を特定することに興味があります。 実証するサンプルコード: library(tseries) set.seed(2) #getting a time series manually x<-c(1,2,1) e<-c(0,0.3,-0.2) n<-45 AR<-c(0.5,-0.4,-0.1) MA<-c(0.4,0.3,-0.2) for(i in 4:n){ tt<-rnorm(1) t<-x[length(x)]+tt+x[i-1]*AR[1]+x[i-2]*AR[2]+x[i-3]*AR[3]+e[i-1]*MA[1]+e[i-2]*MA[2]+e[i-3]*MA[3] x<-c(x,t) e<-c(e,tt) } par(mfrow=c(2,1)) plot(x) plot(diff(x,1)) #fitting different versions. What I would like to get is fit1 with ARIMA() fit1<-arma(diff(x,1,lag=1),c(3,3),include.intercept=F) fit2<-arima(x,c(3,1,3),include.mean=F) fit3<-arima(diff(x,1),c(3,0,3),include.mean=F) fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F) fit5<-arima(diff(x,1),c(3,0,3),method="CSS",include.mean=F) cbind(fit1$coe,fit2$coe,fit3$coe,fit4$coe,fit5$coe) 編集:条件付き二乗和の使用はかなり近づきますが、完全ではありません。fit1のヒントをありがとう! 編集2:これは重複しているとは思わない。ポイント2と3は、私のものとは異なる問題に対処し、ポイント1で述べた初期化をオーバーライドしても fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F,init=fit1$coe) 私はまだ異なる係数を取得します
13 r  time-series  arima  fitting  arma 

4
モデルはauto.arima()によって識別されていますか?
私はARIMAモデルを学び、適用しようとしています。私はPankratzによってARIMAに優れた文章を読んでてきた- 予測を単変量ボックスで-ジェンキンスモデル:概念と事例。本文では、著者は特にARIMAモデルを選択する際の節約の原則を強調しています。 Rパッケージ予測のauto.arima()関数で遊び始めました。これが私がやったことです。ARIMAをシミュレートしてから適用しました。以下に2つの例を示します。両方の例でわかるように、多くの人が非慈善的と考えるモデルを明確に特定しました。特に例2では、実際にはARIMA(1,0,1)で十分かつpar約であるにもかかわらず、ARIMA(3,0,3)が識別されています。auto.arima()auto.arima()auto.arima() 以下は私の質問です。提案や推奨事項に感謝します。 次のような自動アルゴリズムを使用して特定されたモデルをいつ使用/変更するかについてのガイダンスはありますauto.arima()か? auto.arima()モデルを識別するためにAIC(これが使用していると思う)を使用するだけで落とし穴はありますか? 節約的な自動アルゴリズムを構築できますか? ちなみに、私はauto.arima()ちょうど例として使用しました。これは、自動アルゴリズムに適用されます。 以下は例1です。 set.seed(182) y <- arima.sim(n=500,list(ar=0.2,ma=0.6),mean = 10) auto.arima(y) qa <- arima(y,order=c(1,0,1)) qa 以下はからの結果ですauto.arima()。すべての係数は重要ではないことに注意してください。すなわち、ttt値<2。 ARIMA(1,0,2) with non-zero mean Coefficients: ar1 ma1 ma2 intercept 0.5395 0.2109 -0.3385 19.9850 s.e. 0.4062 0.4160 0.3049 0.0878 sigma^2 estimated as 1.076: log likelihood=-728.14 AIC=1466.28 AICc=1466.41 BIC=1487.36 以下は、arima()注文ARIMA(1,0,1)で定期的に実行した結果です。 Series: …

3
ARMA(2,1)プロセスの自己共分散-解析モデルの導出
次のように示されるARMA(2,1)プロセスの自己共分散関数の分析式を導出する必要があります。γ(k)γ(k)\gamma\left(k\right) yt=ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵtyt=ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵty_t=\phi_1y_{t-1}+\phi_2y_{t-2}+\theta_1\epsilon_{t-1}+\epsilon_t だから、私はそれを知っています: γ(k)=E[yt,yt−k]γ(k)=E[yt,yt−k]\gamma\left(k\right) = \mathrm{E}\left[y_t,y_{t-k}\right] だから私は書くことができます: γ(k)=ϕ1E[yt−1yt−k]+ϕ2E[yt−2yt−k]+θ1E[ϵt−1yt−k]+E[ϵtyt−k]γ(k)=ϕ1E[yt−1yt−k]+ϕ2E[yt−2yt−k]+θ1E[ϵt−1yt−k]+E[ϵtyt−k]\gamma\left(k\right) = \phi_1 \mathrm{E}\left[y_{t-1}y_{t-k}\right]+\phi_2 \mathrm{E}\left[y_{t-2}y_{t-k}\right]+\theta_1 \mathrm{E}\left[\epsilon_{t-1}y_{t-k}\right]+\mathrm{E}\left[\epsilon_{t}y_{t-k}\right] 次に、自己共分散関数の分析バージョンを導出するには、ある整数より大きいすべてのに対して有効な再帰が得られるまで、 -0、1、2 ...の値を代入する必要があります。kkkkkkk したがって、を代入し、これを実行して以下を取得します。k=0k=0k=0 γ(0)=E[yt,yt]=ϕ1E[yt−1yt]+ϕ2E[yt−2yt]+θ1E[ϵt−1yt]+E[ϵtyt]γ(0)=E[yt,yt]=ϕ1E[yt−1yt]+ϕ2E[yt−2yt]+θ1E[ϵt−1yt]+E[ϵtyt] \gamma \left(0\right) = \mathrm{E}\left[y_t,y_t\right] = \phi_1 \mathrm{E}\left[y_{t-1}y_t\right] + \phi_2 \mathrm{E}\left[y_{t-2}y_t\right]+\theta_1 \mathrm{E}\left[\epsilon_{t-1}y_t\right]+\mathrm{E}\left[\epsilon_ty_t\right]\\ これで、これらの用語の最初の2つを単純化して、前と同じように置き換えることができます。ytyty_t γ(0)=ϕ1γ(1)+ϕ2γ(2)+θ1E[ϵt−1(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)]+E[ϵt(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)]γ(0)=ϕ1γ(1)+ϕ2γ(2)+θ1E[ϵt−1(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)]+E[ϵt(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)] \gamma\left(0\right) = \phi_1 \gamma\left(1\right) + \phi_2 \gamma\left(2\right)\\ + \theta_1 \mathrm{E}\left[\epsilon_{t-1} \left(\phi_1 y_{t-1} +\phi_2 y_{t-2} +\theta_1 \epsilon_{t-1} + \epsilon_t \right)\right]\\ …

2
異分散測定誤差を伴うAR(1)プロセス
1.問題 I変数のいくつかの測定値有する、、Iは、配信有するため簡単にするため、私は仮定しますMCMCを介して得られたが、平均値のガウス分布でありますと分散。ytyty_tt=1,2,..,nt=1,2,..,nt=1,2,..,nfyt(yt)fyt(yt)f_{y_t}(y_t)μtμt\mu_tσ2tσt2\sigma_t^2 これらの観測の物理モデル、たとえばありますが、残差相関しているようです。具体的には、私がいることを考えるのは物理的な理由持っているプロセスを考慮に相関を取るために十分であろう、と私は、私は必要のあるMCMC、経由フィットの係数を求めることを計画する可能性を。解決策はかなり簡単だと思いますが、私にはよくわかりません(とても簡単に思えるので、何かが足りないと思います)。g(t)g(t)g(t)rt=μt−g(t)rt=μt−g(t)r_t = \mu_t-g(t)AR(1)AR(1)AR(1) 2.尤度の導出 平均ゼロのAR(1)AR(1)AR(1)プロセスは次のように記述できます Xt=ϕXt−1+εt, (1)Xt=ϕXt−1+εt, (1)X_t = \phi X_{t-1}+\varepsilon_t,\ \ \ (1) ここで、εt∼N(0,σ2w)εt∼N(0,σw2)\varepsilon_t\sim N(0,\sigma_w^2)。したがって、推定されるパラメーターはθ={ϕ,σ2w}θ={ϕ,σw2}\theta = \{\phi,\sigma_w^2\}(私の場合、モデルg(t)のパラメーターも追加する必要がありますが、g(t)g(t)g(t)それは問題ではありません)。しかし、私が観察しているのは変数 Rt=Xt+ηt, (2)Rt=Xt+ηt, (2)R_t = X_t+\eta_t,\ \ \ (2) ここで\ eta_t \ sim N(0、\ sigma_t ^ 2)を想定してηt∼N(0,σ2t)ηt∼N(0,σt2)\eta_t\sim N(0,\sigma_t^2)おり、σ2tσt2\sigma_t^2は既知です(測定エラー)。XtXtX_tはガウス過程であるため、RtRtR_tもそうです。特に、私はそれを知っています X1∼N(0,σ2w/[1−ϕ2]),X1∼N(0,σw2/[1−ϕ2]),X_1 \sim N(0,\sigma_w^2/[1-\phi^2]), したがって、 R1∼N(0,σ2w/[1−ϕ2]+σ2t).R1∼N(0,σw2/[1−ϕ2]+σt2).R_1 \sim N(0,\sigma_w^2/[1-\phi^2]+\sigma_t^2). 次の課題は、t \ neq 1に対してR_t | R_ …

1
パネルデータモデルのグループ内の標準化された従属変数?
識別グループ内の従属変数の標準化は意味がありますか? 次のワーキングペーパー(リーガルアマゾンでの森林破壊の減速、価格またはポリシー?、pdf)では、標準化された従属変数を使用して、森林破壊に対するブラジルの一般的な政策変更の影響を分析しています。 標準化は次のように行われます: YN E W私トン= Y私トン− Y私¯¯¯¯¯s d(Y私トン)Y私tnew=Y私t−Y私¯sd(Y私t) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} 著者は、これは「自治体内の森林減少の相対的な変動を考慮する」のに役立つと主張している。著者は、パネルデータのFE推定(12ページ)を使用します。新しい法律の後、翌年ごとに政策後ダミーを含める。 従属変数がこのように標準化された場合、係数はどのように解釈されるべきですか? 標準化は、グループ/市町村が時間の経過とともにより低い変動を経験した観測により高い値を与えるため、非正統的ではありませんか?

4
週平均を保存するインフルエンザデータの補間
編集 必要な手順を正確に説明した論文を見つけました。唯一の違いは、月ごとの平均を維持しながら、月ごとの平均データを日ごとに補間することです。でアプローチを実装するのに苦労していRます。ヒントは大歓迎です。 元の 各週には、次のカウントデータがあります(1週間に1つの値)。 医師の診察件数 インフルエンザの症例数 私の目標は、補間によって毎日のデータを取得することです(線形または切り捨てられたスプラインを考えました)。重要なことは、毎週の平均を保存したいということです。つまり、毎日補間されたデータの平均は、今週の記録値と等しくなるはずです。さらに、補間はスムーズでなければなりません。発生する可能性のある問題の1つは、特定の週の7日未満(たとえば、年の初めまたは終わり)であるということです。 この問題に関するアドバイスに感謝します。 どうもありがとう。 1995年(更新)のサンプルデータセットを次に示します。 structure(list(daily.ts = structure(c(9131, 9132, 9133, 9134, 9135, 9136, 9137, 9138, 9139, 9140, 9141, 9142, 9143, 9144, 9145, 9146, 9147, 9148, 9149, 9150, 9151, 9152, 9153, 9154, 9155, 9156, 9157, 9158, 9159, 9160, 9161, 9162, 9163, 9164, 9165, 9166, 9167, 9168, …

2
自己相関とは何ですか?
これに先立ち、私はかなり深い数学的背景を持っていますが、時系列や統計モデリングを実際に扱ったことはありません。だからあなたは私にとても優しくする必要はありません:) 私は商業ビルでのエネルギー使用のモデリングに関するこの論文を読んでおり、著者はこの主張をしています: [自己相関が存在する]モデルは、本質的に自己相関のエネルギー使用の時系列データから開発されたためです。時系列データの純粋に決定論的なモデルには、自己相関があります。[より多くのフーリエ係数]がモデルに含まれている場合、自己相関が減少することがわかります。ただし、ほとんどの場合、フーリエモデルのCVは低くなります。したがって、このモデルは、高い精度を要求しない(本来の)実用的な目的に適している場合があります。 0.)「時系列データの純粋に決定的なモデルには自己相関がある」とはどういう意味ですか?これが何を意味するか、漠然と理解できます。たとえば、自己相関が0だった場合、時系列の次のポイントをどのように予測しますか。確かにこれは数学的な議論ではないので、これが0である理由です:) 1.)自己相関は基本的にあなたのモデルを殺したという印象を受けましたが、考えてみると、なぜそうなるべきなのか理解できません。では、なぜ自己相関が悪い(または良い)ものなのでしょうか? 2.)自己相関を扱うために聞いた解決策は、時系列を比較することです。著者の心を読もうとせずに、無視できない自己相関が存在する場合、なぜ差分を行わないのでしょうか? 3.)モデルに無視できない自己相関はどのような制限を課しますか?これはどこかの仮定ですか(つまり、単純な線形回帰でモデリングする場合の正規分布の残差)。 とにかく、これらが基本的な質問であればごめんなさい。助けてくれてありがとう。

3
AR(1)はマルコフ過程ですか?
などのAR(1)プロセス はマルコフプロセスですか?yt=ρyt−1+εtyt=ρyt−1+εty_t=\rho y_{t-1}+\varepsilon_t もしそうなら、VAR(1)はマルコフ過程のベクトル版ですか?

2
ヨハンセン共和分検定を実行するときにラグを選択する正しい手順は何ですか?
2つの時系列のJohansen Cointegrationテストを実行する場合(単純な場合)、使用する遅延を決定する必要があります。さまざまなラグに対してテストを実行すると、さまざまな結果が返されます。一部のラグレベルでは帰無仮説を拒否できますが、その他の場合は拒否できません。 私の質問は、入力データに基づいて、ヨハンセンテストを実行するときに使用する必要がある遅延を決定するための正しい方法は何ですか? psこの質問をquant.stackexchangeに提出しましたが、一部の人はこのグループにより適していると提案しました。

3
変数が異なる場合の通常の回帰と回帰
変数が異なる場合の通常の重回帰/単純回帰と多重回帰/単純回帰の関係を理解し​​ようとしています。 例えば、私は預金残高(関係分析しています市場レート(対)私は回帰直線的シンプルを実行する場合、私は、ログを取る場合)、相関が、しかし(-.74周り)負のとはかなり重要であり、従属変数の差と独立変数の差なので、私の方程式ははで回帰され、相関とR ^ 2はまったく重要ではありません()。YTYTY_TRTRTR_Tdln(YT)dln⁡(YT)d\, \ln(Y_T)dR(T)dR(T)d\, R(T)R2=.004R2=.004R^2 = .004 この低い何か意味があるのか​​と思っていました。それは私のモデルが適合していないことを意味しますか、それとも異なるデータを見ているときにを無視しますか?データから、元の2つの変数の間に有意な相関関係があることがわかりますが、私のモデルでは、変数の違いを調べる必要があるので、どうすればよいのでしょうか。R2R2R^2R2R2R^2

1
時系列相互検証を使用した予測誤差の計算
時系列の予測モデルがあり、そのサンプル外の予測エラーを計算したい。現時点で私がフォローしている戦略は、Rob Hyndmanのブログ(ページの下部近く)で次のように提案されています(時系列およびサイズトレーニングセットを想定)y1、… 、yny1、…、yny_1,\dots,y_nkkk モデルをデータに合わせ、次の観測の予測とします。、Y T + Kyt、… 、yt + k − 1yt、…、yt+k−1y_t,\dots,y_{t+k-1}y^t + ky^t+k\hat{y}_{t+k} として予測誤差を計算します。et= y^t + k− yt + ket=y^t+k−yt+ke_{t} = \hat{y}_{t+k} - y_{t+k} t = 1、\ dots、nkについて繰り返しますt = 1 、… 、n − kt=1、…、n−kt=1,\dots,n-k 平均平方誤差をMSE = 1n − k∑n − kt = 1e2tMSE=1n−k∑t=1n−ket2\textrm{MSE}=\frac{1}{n-k}\sum_{t=1}^{n-k} e_t^2 私の質問は、トレーニングセットが重複しているため、相関についてどれだけ心配する必要があるかです。特に、次の値だけでなく、次のmmm値も予測したいので、予測y^t + k、… 、y^t + …

1
データが重複する時系列回帰
同じ株価指数、信用スプレッド(リスクフリー債と社債の月平均の差)の前年(12か月)の前年同期の株価収益率を回帰する回帰モデルを見ています利回り)、前年比インフレ率、鉱工業生産指数。 このように見えます(ただし、この場合はインド固有のデータを置き換えます)。 SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) + b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2) SP500YOYはSP500インデックスの前年比リターンです。これを計算するために、SP500値の月間平均が計算され、各月の前年比リターンに変換されます(つまり、Jan'10-Jan'11、Feb'10- 2月11日、3月10日〜3月11日、…)。説明変数の側では、SP500YOYの12か月の遅れた値が、時間TのCREDITSPREADおよびINFLATIONおよびINDUSTRIALPRODUCTIONの2期間前に使用されます。INFLATIONASYMMは、インフレが5.0%のしきい値を超えているかどうかのダミーです。括弧内のインデックスは、各変数の時間インデックスを示しています。 これは、標準のOLS線形回帰によって推定されます。このモデルを使用して、SP500のYOYリターンの1、2および3か月先を予測するには、インフレおよび鉱工業生産指数の3、4および5か月先の予測を生成する必要があります。これらの予測は、ARIMAモデルを2つのそれぞれに個別に適合させた後に行われます。1、2、3か月先のCreditSpread予測は、精神的な推定値として投入されています。 このOLS線形回帰が正しい/正しくない、効率的/非効率的、または一般的に有効な統計的実践であるかどうかを知りたい。 私が見る最初の問題は、重複するデータを使用することです。すなわち、株価指数の毎日の値は毎月平均化され、毎月ロールオーバーされる年間リターンの計算に使用されます。これにより、エラー用語が自己相関されます。次のいずれかの行で「修正」を使用する必要があると思います。 ホワイトの不均一分散共分散推定量 Newey&Westの不均一分散および自己相関整合(HAC)推定量 Hansen&Hodrickの不均一分散一貫バージョン このような重複データに標準のOLS線形回帰(補正なし)を適用することは本当に意味がありますか?さらに、SP500YOYを予測するために元のOLS線形回帰で使用する説明変数に3期間先のARIMA予測を使用しますか?私は以前にそのようなフォームを見たことがないので、重複する観測の使用を修正することを除いて、実際にそれを判断することはできません。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

5
異なる長さの時系列のSVD次元削減
次元削減手法として特異値分解を使用しています。 N次元のベクトルが与えられた場合D、アイデアは、相関のない次元の変換された空間で特徴を表現することです。これは、この空間の固有ベクトルのデータの情報のほとんどを重要度の高い順に凝縮します。 今、私はこの手順を時系列データに適用しようとしています。問題は、すべてのシーケンスの長さが同じではないことです。したがって、実際にnum-by-dimマトリックスを作成してSVDを適用することはできません。最初に考えたのは、行列を作成しnum-by-maxDimて空のスペースをゼロで埋めることにより、行列にゼロを埋め込むことでしたが、それが正しい方法であるかどうかはわかりません。 私の質問は、異なる長さの時系列への次元削減のSVDアプローチをどのように行いますか?あるいは、時系列で通常使用される固有空間表現の他の同様の方法はありますか? 以下は、アイデアを説明するためのMATLABコードです。 X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.