タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

1
指数加重移動平均を計算するより簡単な方法は?
提案された方法: 時系列与えられた場合、Nポイントの平均化ウィンドウで加重移動平均を計算します。加重は、古い値よりも新しい値を優先します。バツ私バツ私x_iNNN 重みを選択する際には、幾何級数が1に収束するというよく知られた事実、つまり、無限に多くの項が取られる場合。∑ (12)kΣ(12)k\sum (\frac{1}{2})^k 合計が1になる離散的な重みの数を取得するには、幾何学的系列の最初の項を取得し、それらの合計で正規化します。(1NNN(12)k(12)k(\frac{1}{2})^k 場合、例えば、これは、非正規化重みを与えますN= 4N=4N=4 0.0625 0.1250 0.2500 0.5000 合計で正規化すると、 0.0667 0.1333 0.2667 0.5333 移動平均は、これらの正規化された重みに対する最新の4つの値の積の合計になります。 この方法は、長さウィンドウを移動する明白な方法で一般化されており、計算上も同様に簡単に見えます。NNN 質問: 「指数加重」を使用して加重移動平均を計算するためにこの簡単な方法を使用しない理由はありますか? EWMAのWikipediaエントリはより複雑に見えるので、私は尋ねます。EWMAの教科書の定義に、上記の単純な定義にはない統計的特性があるのではないかと思うのはどれですか。それとも実際には同等ですか?

1
非定常時系列の予測
非定常時系列を予測したいと思います。そのような系列のインスタンスの研究から続くいくつかの重要な先験的仮定を含みます。 正規分布で近似された時間平均1点確率分布関数を作成しました。 この観点から、とき、予測がこれを超えないようにします。言い換えると、分散は有界でなければなりません。ZT(L)L→∞ZT(L)p^(x )= 12個のπσ2∞−−−−−√exp( − x22つのσ2∞)p^(バツ)=12πσ∞2exp⁡(−バツ22σ∞2)\hat p(x) = \frac{1}{\sqrt{2\pi \sigma^2_{\infty}}} \exp\left(-\frac{x^2}{2\sigma^2_{\infty}}\right)zt(l )zt(l)z_t(l)l → ∞l→∞l \to \inftyzt(l )zt(l)z_t(l) 平均2点確率分布関数も作成され、自己相関関数の識別につながりました。は。ρ(J)≈AJ-α0&lt;α&lt;0.5p^(x私、私; バツj、j )p^(バツ私、私;バツj、j)\hat p(x_i,i;x_j,j)ρ (J )≈ A J- αρ(j)≈あj−α\rho(j) \approx A j^{-\alpha} 0 &lt; α &lt; 0.50&lt;α&lt;0.50<\alpha<0.5 最初、Box-Jenkinsの識別プロセスにより、モデルが、A R IMA (0 、1 、3 )あR私Mあ(0、1、3)ARIMA(0,1,3) (これはBJ重みの方程式から得られます)までは、分散の制限はありません。同時に、初期の自己相関がゆっくりと減少するため、使用することはできません(これは、おそらくBJによる非定常性の証拠です)。これが私にとっての主な障害です。ψ J D = 0d≠ 0d≠0d \ne 0ψjψj\psi_jd= …

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
どこから始めるか:多数の外れ値またはランダム性がある不等間隔の時系列
何ができるのか本当にわからないので、正しい方向への指針を求めています。 時間と位置の測定値があります。これは、歩いている人、道路上の車、駐車場、オフィスのプリンターなど、あらゆるものです。2点間の車両の移動時間を計算する必要があります。曲がりくねったルートをたどる場合もあれば、AからBに到着するまでに数日かかる場合もあります。あるいは、歩行者や緊急時のサービス車両である場合もあります。 メインルートに沿った通常の車両の推定所要時間を知りたい。 検出は、特定の半径を持つ検出器の近くに誰かがいるときはいつでも行われます。検出が非常に少ない場合があります。これは、道路が空で、所要時間が適切であることを意味しますが、道路が閉鎖されていることを示している可能性があり、所要時間はひどいものになります。または、交通が動いていないことを示す検出がたくさんあり、道路をオフにするためにキューに入れられている可能性がありますが、他の車両は通常の速度で走行しています。 プロットはランダムノイズのように見えます。 編集: 現在、私は2つの方法を検討しています。 四分位範囲を使用して外れ値を破棄する カルマンフィルターを使用します。 時々刻々と変化することを期待しない限り、私は旅行時間のモデルを持っていないので、フィルターは行くのに間違った方法だと思います。

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

3
OLS: 1番目の方程式のは2番目の方程式の標準誤差にバイアスをかけますか?
仮定との時系列である、(とは場合と似ていますが、ダミー= 1)の場合に変更されます。そして、。現実の世界では、これは社の定期的な株式市場のリターンになります(ただし、これは無視できます)。ダミーのがあり、これはでの単一性に等しく、それ以外の場合はゼロに等しくなります。OLS推定される時系列モデルは次のとおりです。Xit,YitXit,Yit{X_{it}},{Y_{it}}Xit∼N(0.1,1)Xit∼N(0.1,1)X_{it}\sim N(0.1,1)σ2(Yit)=1σ2(Yit)=1\sigma^2(Y_{it}) = 1mean(Yit)mean(Yit)mean(Y_{it})XitXitX_{it}t∈{1,2,...,200}t∈{1,2,...,200}t \in \{1,2,...,200\}i∈{1,2,...,N}i∈{1,2,...,N}i \in \{1,2,...,N\}NNNDtDtD_tt∈{150,151,...,200}t∈{150,151,...,200}t \in \{150,151,...,200\}∀i∀i\forall i (1)Yit=αi+βiXit+γiDt+ϵit(1)Yit=αi+βiXit+γiDt+ϵit(1) Y_{it} = \alpha_i + \beta_i X_{it} + \gamma_i D_{t} + \epsilon_{it} このモデルは通常、各ガウスマルコフ仮定に準拠しています。ただし、すべてのおよびに対してがあります。iiiE[ϵTitϵjt]≠0E[ϵitTϵjt]≠0E[\epsilon_{it}^T \epsilon_{jt}] \not= 0iiijjj 次のステップは、モデル推定値を使用してガンマのベクトルを作成することです。このベクトルを呼びます。次に、これを断面モデルで使用します。NNNγ(1)(1)(1)γ^γ^\bf{\hat{\gamma}} (2)γ^i=a+bZi+ui(2)γ^i=a+bZi+ui(2) \hat{\gamma}_i = a + b Z_i + u_i ここで、は、OLSの仮定に違反を引き起こさないいくつかの断面変数であり、説明に関連しています。γ IZiZiZ_iγ^iγ^i\hat{\gamma}_i 適用された計量経済学の文献に記載があることモデルにおけるにおけるOLS係数推定のための(i)は問題なしにリード、しかし、(ⅱ)に標準エラーにバイアス。E[ϵTitϵjt]≠0E[ϵitTϵjt]≠0E[\epsilon_{it}^T \epsilon_{jt}] \not= 0(1)(1)(1)(2)(2)(2)(2)(2)(2) これが事実である理由について誰かがアイデアを投稿してくれませんか? が式ものを理解できません。もちろん、はスカラーであり、スカラーを転置することはできません。これは、見ているHERE彼らはこの方法を適用する場合は、。ϵTitϵitT\epsilon_{it}^TE[ϵTitϵjt]≠0E[ϵitTϵjt]≠0E[\epsilon_{it}^T \epsilon_{jt}] \not= 0ϵitϵit\epsilon_{it}

2
一般化最小二乗モデル(GLS)からの非相関エラー
私たちは金融機関として、時系列データの分析を頻繁に実行します。多くの場合、時系列変数を使用して回帰を行うことになります。これが発生すると、多くの場合、OLS回帰における独立したエラーの基本的な仮定に違反する時系列構造の残差が発生します。最近、別のモデルを構築しています。自己相関エラーのある回帰があるlm(object)と思います。ACFとPACFから明らかなように、線形モデルの残差は明らかにAR(1)構造を持っています。私は2つの異なるアプローチをとりました。最初のアプローチは明らかgls()にRの一般化最小二乗法を使用してモデルを適合させることでした。私の期待は、gls(object)からの残差がホワイトノイズ(独立したエラー)になることでした。しかし、からの残差gls(object)通常の回帰と同じARIMA構造がまだあります。残念なことに、私がやっていることに、理解できないほどの問題があります。したがって、線形モデル(OLS推定)からの回帰係数を手動で調整することにしました。驚くべきことに、調整された回帰からの残差をプロットすると、それは機能しているようです(残差はホワイトノイズです)。私は本当にコーディングをパッケージで使用gls()したいnlmeので、コーディングはずっと簡単で簡単になります。ここで私が取るべきアプローチは何ですか?REMLを使用するはずですか?または、gls()オブジェクトからの相関のない残差(ホワイトノイズ)に対する私の期待は間違っていますか? gls.bk_ai &lt;- gls(PRNP_BK_actINV ~ PRM_BK_INV_ENDING + NPRM_BK_INV_ENDING, correlation=corARMA(p=1), method='ML', data = fit.cap01A) gls2.bk_ai &lt;- update(gls.bk_ai, correlation = corARMA(p=2)) gls3.bk_ai &lt;- update(gls.bk_ai, correlation = corARMA(p=3)) gls0.bk_ai &lt;- update(gls.bk_ai, correlation = NULL) anova(gls.bk_ai, gls2.bk_ai, gls3.bk_ai, gls0.bk_ai) ## looking at the AIC value, gls model with AR(1) will be the best bet …



1
時系列モデルのジャックナイフ
前書き 私は、いくつかのマクロ経済指標( 1を示すYtYtY_t)の年間成長率を予測することを目指しています。タスクの1つは、外生変数(、行列)がある場合とない場合のライバル時系列モデルの予測パフォーマンスをテストすることです。ライバルモデルのリストは次のとおりです。XtXtX_tT×kT×kT\times k AR(I)MAモデル(年間成長率に「単位Roo」があるとは考えられませんが、後者は想定またはテストされています)A(L)Yt=μ+B(L)εtA(L)Yt=μ+B(L)εtA(L)Y_t =\mu+ B(L)\varepsilon_t ARMAエラーのある線形回帰モデルYt=Xtβ+ηt, A(L)ηt=B(L)εtYt=Xtβ+ηt, A(L)ηt=B(L)εtY_t = X_t\beta + \eta_t, \ \ A(L)\eta_t = B(L)\varepsilon_t 従属変数モデル(外生変数を含む自己回帰モデル) A(L)Yt=Xtβ+εtA(L)Yt=Xtβ+εtA(L)Y_t = X_t\beta + \varepsilon_t 線形回帰モデル Yt=Xtβ+εtYt=Xtβ+εtY_t = X_t\beta + \varepsilon_t ここで強い白色雑音であると仮定され、ゼロ平均定数の分散処理をIID。およびは、(バックシフト(ラグ)演算子を使用した自己回帰(次数)および移動平均(次数)の多項式です。εtεt\varepsilon_tA(L)A(L)A(L)B(L)B(L)B(L)pppqqqLLL 主で唯一の目標はパフォーマンスの予測であるため、パラメータ推定の「良い」プロパティは二次的な問題であることに注意してください。私が必要なのは、開始条件予測ツールに対して最も簡潔で堅牢なものをテストすることです。いずれかのaccuracy()オプションで決定しますが、最初に比較用の資料を入手する必要があります。 モデル1.および2.はauto.arima()、デフォルトの"CSS-ML"推定方法で推定されます。モデル3.および4.は、通常の最小二乗(lm())によって推定されます。は約クォーターです。TTT404040 これまでに試みたアプローチ ジャックナイフ残差を作成するために、「ローリング」で示される最初のアプローチが実装されました。時系列データの実行可能な大きなサブサンプルから開始して、パラメーターが推定され、関数によって先の予測が行われます(編集:これは、前半のRobの2番目の質問に対する回答と同じ提案です)。その後、1つのポイントが追加され、推定/予測のステップが繰り返されます。hhhpredict() このような実験の弱点は、パラメーターの推定に使用される時間ティック(サンプルサイズ)の数が異なることです。推定のサンプルサイズを固定したまま、開始条件に対する堅牢性をテストしたいと思います。 これを念頭において、私は、いくつかの後続の値に設定しようとした(編集:間隔の)におけるある欠損値(NA)。モデル2.-4の場合。これは、データ行列対応する後続の行を削除することも意味します。3.および4.の予測は簡単です(省略されたデータ行と同じです)。私のすべての懸念はモデル1と2に関するものです。k+p+q&lt;t0&lt;t1&lt;T−h+1k+p+q&lt;t0&lt;t1&lt;T−h+1k+p+q0q&gt;0q&gt;0q>0 編集:ARMAパーツのパラメーターが正しく推定されているので、最初のサブサンプルの推定パラメーターとデータのみを含めるようにarimaオブジェクトを合法的に再配置して、予測関数を使用できますか? modpredict.ArimaYt+1|tYt+1|tY_{t+1|t}A^(L)(Yt−Xtβ^)+Xtβ^+B^(L)ε^tA^(L)(Yt−Xtβ^)+Xtβ^+B^(L)ε^t\hat A(L)(Y_t-X_t\hat \beta)+ X_t\hat \beta+\hat B(L)\hat \varepsilon_t KalmanForecast()。これは、状態空間表現がではなく同じ推定されたで提供されるため、予想されたものです。したがって、残っている唯一の問題は、ポイント予測に影響を与えるために重要なとの違いですか?私は答えが否定的であることを望みます。θjθj\theta_jθn,jθn,j\theta_{n,j}θjθj\theta_jθn,jθn,j\theta_{n,j}

1
動的因子分析と差異の因子分析
私は動的要因分析に頭を抱えようとしています。これまでのところ、私の理解では、DFAは因子分析とスコアの時系列モデルにすぎません(負荷は固定されたままです)。ただし、私が見たケースでは、スコアのモデルは対角相関行列を使用した単なるランダムウォークです。これは、違いに適用された通常の因子分析と同じようです。何が欠けていますか? 私を始めるための良い参考文献を知っているなら、私はそれらに感謝します。負荷がゆっくりと変化することを可能にするものを実際に見つけたいです。それについて考えるための私のコンテキストは、West&HarrisonスタイルのDLMです。


7
2つの変数間の任意の非線形関係の強度を測定する方法は?
2つのペア変数間の任意の非常に非線形な関係の強さを測定する方法は何ですか?非常に非線形とは、既知のモデルへの回帰によって、合理的または確実にモデル化できない関係を意味します。私は特に時系列に興味がありますが、2変量データで機能するものはすべてここで機能すると思います(2つの時系列をペアのデータポイントのセットとして扱う場合)。 私が知っている2つは、平均二乗差(つまり、平均二乗誤差、1つの時系列を「期待される」値として扱い、もう1つを観測値として扱う)、および距離共分散です。他には何がありますか? 明確化:私は基本的にシリーズ間の依存関係について尋ねています。線形相関または単純な非線形相関(log、exp、trig、その他の単純な分析変換後)はあまり意味がありません。

1
ラグ変数からの情報損失を減らす方法は?
分散ラグモデルを使用して時系列データを分析しています。調査期間は18年で、観測は年次データです。1年のラグ効果を含めると、ラグ変数の最初の年が欠落します。次に、2年のラグ効果により、ラグ変数の最初の2つのデータが欠落します。 私の研究では5つのラグ効果を分析するつもりですが、5つのラグ変数が5つの欠損データを引き起こしました。複数の代入がこれらのラグ変数での情報の損失を克服するのに役立つと思いますが、代入の結果は合理的ではありません。 欠けているデータをラグ変数に代入するより良いアイデアはありますか?

1
時系列クラスタリング
この形式の多くの時系列があり、日付(d / m / yr)形式の1列と、次のようなさまざまな時系列を表す多くの列があります。 DATE TS1 TS2 TS3 ... 24/03/2003 0.00 0.00 ... 17/04/2003 -0.05 1.46 11/05/2003 0.46 -3.86 04/06/2003 -2.21 -1.08 28/06/2003 -1.18 -2.16 22/07/2003 0.00 0.23 Rを使用して、同様の傾向を示す時系列をどのようにグループ化できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.