タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
複数の時系列を組み合わせるときに注意すべき問題は何ですか?
たとえば、ある地域のさまざまな観測所からの気温の記録など、いくつかの時系列があるとします。地域の気候の側面を説明できる、地域全体の単一の気温の記録を取得したいと考えています。直感的なアプローチは、各タイムステップですべてのステーションの平均をとるだけかもしれませんが、私の統計的なスパイダーセンス(これはまだ十分に連絡していません)は、これはそれほど簡単ではないかもしれないことを示しています。特に、領域全体を平均化すると、極端な温度の極端な部分がいくつか取り除かれ、近くのステーション間の依存関係に問題が発生する可能性があると思います。 このような戦略を試した場合、他にどのような問題に直面する可能性がありますか?それらを克服する方法、またはこの種のデータを組み合わせるより賢明な方法はありますか? 注:回答は、私が提供した空間的な例よりも一般的です。

5
2つの非定常時系列を比較して相関を決定する方法は?
時間の経過に伴う死亡時の年齢の中央値をプロットする2つのデータシリーズがあります。どちらのシリーズも、長期にわたる死亡年齢の増加を示していますが、一方は他方よりはるかに低くなっています。下のサンプルの死亡年齢の増加が上のサンプルのそれと大幅に異なるかどうかを確認したいと思います。 以下に、年(1972年から2009年まで)の順に小数点以下3桁に四捨五入したデータを示します。 Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983 Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 …

1
vcovHC、vcovHAC、NeweyWest –使用する関数はどれですか?
lm()ベースのモデルを更新して、正しい標準エラーとテストを取得しようとしています。どのVCマトリックスを使用するか本当に混乱しています。sandwichパッケージの提供vcovHC、vcovHACおよびNeweyWest。前者は異分散性のみを考慮しますが、後者2つは系列相関と異分散性の両方を考慮します。しかし、ドキュメントには後者の2つの違いについてはあまり説明されていません(少なくとも私にはわかりません)。関数自体を見ると、NeweyWestが実際にvcovHACを呼び出していることがわかりました。 経験的結果coeftest(mymodel, vcov. = vcovHAC)とはcoeftest(mymodel, vcov. = NeweyWest)異なる怒っています。vcovHACナイーブlmの結果に多少近いものの、NeweyWestを使用すると、すべての係数は重要ではなくなります(テストは1に近くても)。


2
時系列(R)の構造的破損を検出および定量化する方法
バックグラウンド だから私が持っているかもしれない理解のレベルを測るためのいくつかの背景。現在修士論文を完成させていますが、統計はほとんど無視されていますが、私は基本的には理解しています。私の現在の質問は、私が実際に何ができる/すべきか疑問に思っています。オンラインや文学でますます読むことは逆効果のようです。 私は何を達成しようとしていますか? したがって、私が入社した論文では、私が回答しようとしている一般的な質問は、本質的に、予測プロセスが特定のシステムの実装によってどのように影響されるかです(予測プロセスに使用されるデータに影響します)。 これで望ましい結果は、以下の理解です。 目立った変化はありますか?(例えば、統計的証明) 変化はどのくらいですか?(平均と分散) この予測プロセスで重要な要因(また、要因の影響が休憩前>休憩後にどのように変化するか) 1と2に答えるために、時系列オブジェクトの形式で履歴データを取得しました(この段階では、それ以上ですが無関係です)。私が使用しているソフトウェアはRです。 データ データには、毎日(2.5年間)の加重スコアが含まれ、予測プロセスのパフォーマンスの悪さ(実際のイベントからの逸脱)を示します。この1つの時系列オブジェクトには、1時間前からこれらの2.5年間のイベントの実際の発生(1時間の間隔)までに発生した予測の加重スコアが含まれます(したがって、各日には、この間隔の加重スコアが1つあります)。同様に、他の間隔(1〜2、2〜3時間など)に対して構築された複数の時系列があります。 myts1 <- structure(c(412.028462047, 468.938224875, 372.353242472, 662.26844965, 526.872020535, 396.434818388, 515.597528222, 536.940884418, 642.878650146, 458.935314286, 544.096691918, 544.378838523, 486.854043968, 478.952935122, 533.171083451, 507.543369365, 475.992539251, 411.626822157, 574.256785085, 489.424743512, 558.03917366, 488.892234577, 1081.570101272, 488.410996801, 420.058151274, 548.43547725, 759.563191992, 699.857042552, 505.546581256, 2399.735167563, 959.058553387, 565.776425823, 794.327364085, 1060.096712241, 636.011672603, 592.842508666, 643.576323635, …

2
時系列相互検証からの最終モデル
モデル調整のための「通常の」K分割交差検証の経験があり、時系列モデルのアプリケーションに少し混乱しています。 時系列モデルの場合、相互検証の当然の結果は、Hyndmanによって記述された「ローリングフォワードオリジン」手順であることが私の理解です。これは私には十分に理にかなっており、以下のコードtsCVは、HydmanのブログからのR での関数の使用を示し、エラーがCVとデータセット全体とで一度にどのように異なるかを示しています。 library(fpp) e <- tsCV(dj, rwf, drift=TRUE, h=1) sqrt(mean(e^2, na.rm=TRUE)) ## [1] 22.68249 sqrt(mean(residuals(rwf(dj, drift=TRUE))^2, na.rm=TRUE)) ## [1] 22.49681 さて、上記のリンクでは、ドリフトパラメータが新しい予測の起点ごとに再推定されると述べています。「通常の」CVでは、使用する最適なパラメーターを決定するために平均を取得できるように、各フォールドに対して評価するパラメーターのグリッドを用意します。次に、これらの「最適な」パラメーターを使用して完全なトレーニングセットに適合させ、それを私の最終モデルとして使用して、以前に実施したテストセットを評価します。これは入れ子の交差検証であるため、どの時点でもテストセットのトレーニングは行っていません。 これは明らかに「ローリング・フォワード起源」プロシージャの場合ではないパラメータが各折り目のために最適化された(のようなR法のための少なくともbats、tbats、auto.arima、など)。モデルパラメーターの調整に関してこの方法を誤解しているのでしょうか、または使用される最終モデルに設定する時系列モデルパラメーターをどのように選択するのですか?または、パラメーターの調整は、最適化がモデルのフィッティングの一部であると思われる時系列モデルの問題を考慮せず、CVの結果は、各モデルの全体的なパフォーマンスを示すだけです。そして、最後に大部分のデータを使用して構築された最終的なモデルは、私が使用するモデルですか? これはもっと簡単な質問に言い換えることができると思います。クロス検証(「ローリングフォワードオリジン」)の後、最後に作成されたモデル(最大のスーパーセットを最終的なフィットモデルとして)を使用するだけですか?または、何を提案しますか?

2
さまざまな差異の後の回帰係数の解釈
時系列を差分した後に線形回帰係数を解釈する方法(単位根を除去するため)を説明する説明はほとんどありません。単純に、それを正式に述べる必要がないほど単純ですか? (私はこの質問を知っていますが、それがどの程度一般的であるかはわかりませんでした)。 モデル興味があるとしましょう ここで、はおそらくARMA(p、q)です。興味深いのは、、、...です。具体的には、「 1単位の変化」という観点からの解釈は、、の平均変化をもたらし δ T β 1 β 2 β Pの X I YはT β I iが= 1つの... Pを。Yt=β0+β1X1t+β2X2t++...+βpXpt+δtYt=β0+β1X1t+β2X2t++...+βpXpt+δtY_{t}=\beta_{0}+\beta_{1}X_{1t}+\beta_{2}X_{2t} + +...+\beta_{p}X_{pt}+ \delta_{t}δtδt\delta_{t}β1β1\beta_{1}β2β2\beta_{2}βpβp\beta_{p}XiXiX_{i}YtYtY_{t}βiβi\beta_{i}i=1...p.i=1...p.i = 1...p. ここで、ユニットルートからの非定常性が疑われるためにを差分する必要があるとしましょう(例:ADFテスト)。次に、同じように、それぞれのも異なるようにする必要があります。 X i tYtYtY_{t}XitXitX_{it} 次の場合、の解釈は何ですか?βiβi\beta_{i} 第1の差分 から取られるとの各? Y t X i tY』tYt′Y'_{t}YtYtY_{t}バツ私トンXitX_{it} 第2の差分(差分の差分)()から取られY_ {T}との各X_ {それ}?Y」tYt″Y''_{t} X i tYtYtY_{t}バツ私トンXitX_{it} 季節差(例えば(1 − B12)(1−B12)(1-B^{12}) 毎月のデータ用)から取得されYtYtY_{t}との各XitXitX_{it}? 編集1 係数の違いと解釈につ​​いて言及しているテキストを1つ見つけました。リンクされた質問とよく似ています。これは、動的回帰を使用したAlan …

2
正規化されたRMSE
VAR(1)にいくつかの時系列があり、それらのいくつかは同じ測定単位を持たないため、RMSEをパーセンテージで推定したいと思います。私はそれがいくつかの方法で行われる可能性があることを知っています(以下を参照)。しかし、どれが予測評価の問題によりよく適合するかは正確にはわかりません。あなたが助けてくれるといいのですが。 正規化されたRMSEの例: R MSE1= 1んΣ私(Yfo r e c a s t私− Y私Y私)2−−−−−−−−−−−−−−−−−−−⎷R MSE2= 1んΣ私(Yfo r e c a s t私− Y私Yfo r e c a s t私)2−−−−−−−−−−−−−−−−−−−⎷R MSE3= 1んΣ私(Yfo r e c a s t私− Y私)2−−−−−−−−−−−−−−−−−√m e a n (Y)RMSE1=1n∑i(Yforecasti−YiYi)2RMSE2=1n∑i(Yforecasti−YiYforecasti)2RMSE3=1n∑i(Yforecasti−Yi)2mean(Y) RMSE_1 = \sqrt{\frac{1}{n}\sum_i\left(\frac{Y_{forecast_i}-Y_i}{Y_i}\right)^2} \\ RMSE_2 = \sqrt{\frac{1}{n}\sum_i\left(\frac{Y_{forecast_i}-Y_i}{Y_{forecast_i}}\right)^2} \\ RMSE_3 = …
10 time-series  mse  rms 

2
2つの時系列の違いを比較するにはどうすればよいですか?
私は自分の論文に取り組んでおり、さまざまなイベントに対して人々がどのように強い感情を示すかを調べています。私の問題は、(1)統計と数学の経験がほとんどないため、さまざまな方法で少し迷っていて、(簡単な)答えが得られれば(多くのアルゴリズムやスタッフなしで)本当に幸せです。 だから主な質問: 下のグラフで、黄色の線が最初のグラフと比較して2番目のグラフで有意差があるかどうか、またどの程度異なるかを確認したいと思います。これは最も簡単な方法でどのように行われますか? 私は2日間答えを探しましたが、私に役立つ何かを見つけることができませんでした。だから私は誰かが正しい方法で私を助けてくれることを願っています!

3
多変量時系列の定常性
私は多変量時系列で作業していて、予測にVAR(Vector Autoregression)モデルを使用しています。私の質問は、多変量フレームワークで定常性が実際に何を意味するかです。 1)VAR設定で| IA |行列の逆行列式の係数が1未満の固有値である場合、VARシステム全体が安定/静止していることを知っていますが、それは、非定常の違いを気にすることなく続行できることを意味します多変量時系列に存在するコンポーネント 2)コンポーネントシリーズの1つが静止していない場合の処理​​方法 3)複数のコンポーネントの時系列が非定常であるが「共積分されていない」場合、どうすればよいですか? 何よりも、多変量時系列を処理する他の方法があります。私は機械学習の方法についても調査しています

6
グループ化された時系列の遅延
時系列にはありますが場所ごとにグループ化された数万の観測があります。例えば: location date observationA observationB --------------------------------------- A 1-2010 22 12 A 2-2010 26 15 A 3-2010 45 16 A 4-2010 46 27 B 1-2010 167 48 B 2-2010 134 56 B 3-2010 201 53 B 4-2010 207 42 私は月かどうかを確認したいのxさんは、observationA月との任意の線形の関係があるのx + 1つのをobservationB。 私はいくつかの調査を行い、zoo関数を見つけましたが、グループごとの遅延を制限する方法がないようです。したがって、動物園を使用しobservationB、1行遅れている場合observationB、場所Bが最初になり、場所Aが最後になりますobservationB。私はむしろ、「この行に触れないでください」を示す最初observationBの場所NAまたは他の明白な値を設定したいと考えています。 私が得ているのは、Rでこれを行う組み込みの方法があるかどうかです。そうでない場合は、標準のループ構造でこれを実行できると思います。それともデータを操作する必要がありますか?

2
教師あり学習データセットの自己相関は問題ですか?
次の問題を想像してみてください。Kアイテムの価格データと、さまざまな機能/予測子のスナップショットを毎週持っています。2年後の価格がどのくらい変わるか予測したい。 次のようにデータセットを組み立てます。各行は各週の各アイテムの機能で構成され、出力変数は2年間の価格リターンです。観測の日付がデータセットにない-私はそれをデータセットをトレーニングと検証セットに分離するためにのみ使用します。つまり、相互検証(検証期間の前後2年間のデータを破棄します) 1年)データの盗聴を防止するため)。 明らかに、同じ項目(および異なる項目の場合も)の2週間連続のサンプルは、機能と応答変数の両方の点で高度に相関します(今後2年間は大部分が重複するため、リターンを意味します)非常に似ています)。ランダムフォレストや勾配ブーストツリーなど、教師付き学習アプローチにどのような潜在的な問題が発生する可能性がありますか? 私の考えは: データセットの有効サイズは、予想よりも小さくなります。つまり、たとえば100,000の観測のデータセットは、100'000 /(52 * 2)〜= 1000の観測のデータセットのように動作します。これは、応答に自己相関がないサンプルの数だからです。これは、データに適合できるモデルの複雑さに大きく影響します。つまり、過剰適合問題が発生し、予想よりもはるかに悪い結果になります。 フィーチャスペース内の各アイテムの連続した週にフィーチャが互いに非常に接近しているため、私のデータセットはフィーチャスペースを予想よりもかなりカバーし、データセットの「有効」サイズが減少します。 クロスバリデーションの検証に1年分のデータのみを使用すると、クロスバリデーションの結果の分散が大きくなります。これも、検証セットのサンプルの有効数が52 * Kではなく〜Kになるためです。 これらは有効な懸念事項ですか?はいの場合、K〜= 100の場合、ランダムフォレストや勾配ブーストツリーを使用するなど、数百の機能から合理的に複雑な非線形モデルをトレーニングするには、数千年ではなくても数百のデータが必要になるということですか?それとも、私は過度に悲観的で、上記の「有効なデータセットのサイズ」に関する私の議論は無意味ですか?

3
混合周波数データを含むLSTM時系列
時系列予測のためにLSTM RNNを作成したいのですが、私の予測値の一部は月次であり、他は毎日です。このネットワークの設定方法に関するアドバイス/例はありますか? 予測の頻度は毎月です。 ありがとう。
10 time-series  lstm  rnn 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.