タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

2
時系列で欠落データを埋める方法は?
私は2年間にわたって10分ごとに記録された汚染データの大規模なセットを持っていますが、データにはいくつかのギャップがあります(一度に数週間続くものを含む)。 データは非常に季節性があるようで、値に大きな変化がなく、データポイントが低い夜と比較して、日中は大きな変動があります。 私は黄土モデルを昼と夜のサブセットに別々に適合させ(それらの間に明らかな違いがあるため)、欠損データの値を予測し、これらのポイントを埋めることを検討しました。 これがこの問題に対処する適切な方法であるかどうか、また予測されたポイントに局所的な変動を追加する必要があるかどうかは疑問でした。

2
ACFおよびPACF検査によるARMA係数の推定
ACFプロットとPACFプロットの目視検査により、時系列の適切な予測モデルをどのように推定しますか?どちらがARまたはMAに通知しますか(つまり、ACFまたはPACF)(または、両方とも)。グラフのどの部分が、季節性ARIMAの季節的および非季節的部分を示していますか? 以下に表示されるACFおよびPCF機能を検討してください。それらは、単純な差異と季節(元のデータ、対数変換されたデータ)の2つの差異がある2つのログ変換された系列からのものです。シリーズをどのように特徴付けますか?どのモデルが最適ですか?

2
推論にARIMAエラーを使用した回帰を使用する場合の定常性の要件は何ですか?
ARIMAエラーを伴う回帰(動的回帰)を推論に使用する場合の定常性の要件は何ですか? 具体的には、非定常連続結果変数、非定常連続予測変数およびダミー変数処理シリーズます。治療が、変化がゼロから2標準誤差以上離れた結果​​変数の変化と相関していたかどうかを知りたい。yyyバツaバツax_aバツbバツbx_b ARIMAエラーモデリングを使用して回帰を実行する前に、これらのシリーズを区別する必要があるかどうかはわかりません。別の質問への回答で、IrishStatは、while the original series exhibit non-stationarity this does not necessarily imply that differencing is needed in a causal model.それを追加すること を続けていると述べていunwarranted usage [of differencing] can create statistical/econometric nonsenseます。 SASユーザーガイドを示唆している、それはそう長く残差が非定常されているような差分せずに非定常シリーズへのARIMAエラーのフィット回帰モデルに罰金であること: 定常性の要件はノイズシリーズに適用されることに注意してください。入力変数がない場合、応答シリーズ(差分の後、平均項を引いたもの)とノイズシリーズは同じです。ただし、入力がある場合、入力の効果が除去された後のノイズ系列は残差です。 入力系列が静止している必要はありません。入力が非定常の場合、ノイズプロセスが定常的である場合でも、応答シリーズは非定常になります。 非定常入力シリーズを使用する場合、まずエラーのARMAモデルを使用せずに入力変数を近似し、次にノイズ部分のARMAモデルを特定する前に残差の定常性を考慮することができます。 一方、Rob HyndmanとGeorge Athanasopoulosは次のように主張しています。 ARMAエラーを含む回帰を推定する際の重要な考慮事項は、モデル内のすべての変数が最初に定常でなければならないことです。そのため、最初にytとすべての予測子が静止しているように見えることを確認する必要があります。これらのいずれかが非定常であるときにモデルを推定すると、推定係数が不正確になる可能性があります。(x1 、t、… 、xk 、t)(バツ1、t、…、バツk、t)(x_{1,t},\dots,x_{k,t}) ytyty_t これらのアドバイスは相互に排他的ですか?適用されたアナリストはどのように進めますか?

2
回帰で日付変数を使用するのは理にかなっていますか?
Rで日付形式の変数を使用することに慣れていません。線形回帰モデルで説明変数として日付変数を追加することができるかどうか疑問に思っています。可能であれば、どのように係数を解釈できますか?結果変数に対する1日の影響ですか? 私がやろうとしていることの例で私の要点を見てください。

3
欠損値や不規則な時系列でR予測パッケージを使用する
R forecastパッケージ、zooおよび不規則な時系列や欠損値の補間などのパッケージに感銘を受けました。 私のアプリケーションはコールセンターのトラフィック予測の領域にあるため、週末のデータは常に(ほぼ)欠落していzooます。これはでうまく処理できます。また、いくつかの離散ポイントが欠落している可能性がありますNA。そのためにRを使用しています。 事ある次のような予測パッケージ、すべての素敵な魔法eta()、auto.arima()など、平野期待しているように見えるts物体は、つまりは、欠落したデータを含まない時系列を等間隔。等間隔のみの時系列の実世界のアプリケーションは確かに存在すると思いますが、-私の意見では-非常に限られています。 少数の離散の問題NA値が容易に提供される補間関数のいずれかを使用することによって解決することができるzooだけでなくによってforecast::interp。その後、予測を実行します。 私の質問: 誰かがより良い解決策を提案していますか? (私の主な質問)少なくとも私のアプリケーションドメイン、コールセンターのトラフィック予測(および他のほとんどの問題ドメインを想像できる限り)では、時系列は等間隔ではありません。少なくとも、定期的な「営業日」スキームなどがあります。それを処理し、予測パッケージのすべてのクールな魔法を使用する最良の方法は何ですか? 週末を埋めるために時系列を「圧縮」し、予測を実行してから、週末にNA値を再挿入するためにデータを再度「膨らませ」ますか?(それは残念だと思いますか?) 予測パッケージを、動物園やそのような不規則な時系列パッケージと完全に互換させる計画はありますか?はいの場合、いつ、いいえの場合、なぜですか? 私は予測(および統計全般)が初めてなので、重要なことを見落とす可能性があります。

3
切片/ドリフトと線形トレンドでモデル化された時系列のどのDickey-Fullerテストですか?
短縮版: 定常性をテストしている時系列の気候データがあります。以前の調査に基づいて、データの基礎となる(または「生成」と呼ばれる)モデルには、インターセプト項と正の線形時間傾向があると予想しています。これらのデータの定常性をテストするには、インターセプトと時間トレンドを含むDickey-Fullerテストを使用する必要がありますか。方程式#3か? ∇yt=α0+α1t+δyt−1+ut∇yt=α0+α1t+δyt−1+ut\nabla y_t = \alpha_0+\alpha_1t+\delta y_{t-1}+u_t または、モデルの基礎となる方程式の最初の違いはインターセプトのみを持っているため、インターセプトのみを含むDFテストを使用する必要がありますか? ロングバージョン: 上記のように、定常性をテストする気候データの時系列があります。以前の調査に基づいて、データの基礎となるモデルには、切片項、正の線形時間傾向、および正規分布の誤差項があると予想しています。つまり、基礎となるモデルは次のようになります。 yt=a0+a1t+βyt−1+utyt=a0+a1t+βyt−1+uty_t = a_0 + a_1t + \beta y_{t-1} + u_t ここで、ututu_tは正規分布です。基礎となるモデルには切片と線形時間トレンドの両方があると仮定しているため、以下に示すように、単純なDickey-Fullerテストの等式#3で単位根をテストしました。 ∇yt=α0+α1t+δyt−1+ut∇yt=α0+α1t+δyt−1+ut\nabla y_t = \alpha_0+\alpha_1t+\delta y_{t-1}+u_t この検定は、帰無仮説を棄却し、基礎となるモデルが非定常であると結論付けることにつながる臨界値を返します。しかし、私の質問にもかかわらず、以来、私は、これを正しく適用していた場合に基礎となるモデルは、インターセプトとタイムトレンドを持っていると想定されるが、これは意味するものではありません。最初の違いその∇yt∇yt\nabla y_t同様になります。実際、私の数学が正しければ、まったく逆です。 モデルの基礎となる仮定の式に基づいて第1の差を計算する与える: ∇yt=yt−yt−1=[a0+a1t+βyt−1+ut]−[a0+a1(t−1)+βyt−2+ut−1]∇yt=yt−yt−1=[a0+a1t+βyt−1+ut]−[a0+a1(t−1)+βyt−2+ut−1]\nabla y_t = y_t - y_{t-1} = [a_0 + a_1t + \beta y_{t-1} + u_t] - [a_0 + a_1(t-1) + \beta …

6
一連のデータで局所的なピーク/谷を見つける方法は?
これが私の実験です。 quantmodパッケージのfindPeaks関数を使用しています: 許容範囲5内の「ローカル」ピーク、つまり、時系列がローカルピークから5低下した後の最初の位置を検出したい: aa=100:1 bb=sin(aa/3) cc=aa*bb plot(cc, type="l") p=findPeaks(cc, 5) points(p, cc[p]) p 出力は [1] 3 22 41 私は3つよりも多くの「局所的なピーク」を期待しているので、間違っているようです... 何かご意見は?
16 r  time-series 

3
財務時系列における堅牢な異常値検出
金融の時系列データ(つまりtickdata)から外れ値とエラー(原因が何であれ)を除去するための堅牢な手法を探しています。 ティックごとの財務時系列データは非常に乱雑です。これには、取引所が閉じられたときに大きな(時間)ギャップが含まれ、取引所が再び開かれたときに大きなジャンプが行われます。取引所が開いているとき、あらゆる種類の要因が間違った(発生しなかった)価格レベルでの取引を引き起こします、および/または市場を代表しません(例えば、誤って入力された入札または売値によるスパイク)。tickdata.com(PDF)によるこの論文は、問題の概要を説明するのに適していますが、具体的な解決策はほとんどありません。 この問題について言及している私がオンラインで見つけることができるほとんどの論文は、それを無視するか(tickdataがフィルターされていると想定されます)、または便利なフィルター手順を隠す巨大な取引モデルの一部としてフィルターを含めます。 この分野でより詳細な作業を知っている人はいますか? 更新: この質問は表面上は似ているように見えますが: 財務時系列は(少なくともティックレベルで)非周期的です。 開封効果は大きな問題です。なぜなら、本当にしたいのに、それ以外の場合は何も持っていないので、最終日のデータを初期化として単純に使用できないからです。外部の出来事により、新しい日のオープンは、絶対レベルと前日のボラティリティの両方で劇的に異なる場合があります。 着信データの非常に不規則な頻度。1日のほぼ開いた状態と閉じた状態では、1秒あたりのデータポイントの量は、1日の平均の10倍になります。もう1つの質問は、定期的にサンプリングされたデータに関するものです。 金融データの「外れ値」は、他のドメインでは適用できない特定の手法で検出できる特定のパターンを示しており、その特定の手法を部分的に探しています。 より極端な場合(フラッシュクラッシュなど)、外れ値は長い間隔(> 10分)でデータの75%を超える可能性があります。さらに、着信データの(高)頻度には、状況の異常値の側面に関する情報が含まれています。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
BSTSモデル(R)からの予測は完全に失敗しています
ベイジアン構造時系列モデルに関するこのブログ投稿を読んだ後、以前にARIMAを使用していた問題のコンテキストでこれを実装することを検討しました。 私はいくつかの既知の(しかしノイズの多い)季節的要素に関するデータを持っています-これには間違いなく年次、月次、週次の要素があり、特別な日(連邦政府や宗教の祝日など)による影響もあります。 bstsパッケージを使用してこれを実装しましたが、コンポーネントと予測は単に期待どおりに見えませんが、間違ったことは何もしていないと言えます。私の実装が間違っているか、不完全であるか、その他の問題があるかどうかは明確ではありません。 フルタイムシリーズは次のようになります。 データの一部のサブセットでモデルをトレーニングできます。モデルは一般に適合性の点で見栄えがよくなります(プロットは下にあります)。これを行うために使用しているコードは次のとおりです。 library(bsts) predict_length = 90 training_cut_date <- '2015-05-01' test_cut_date <- as.Date(training_cut_date) + predict_length df = read.csv('input.tsv', sep ='\t') df$date <- as.Date(as.character(df$date),format="%Y-%m-%d") df_train = df[df$date < training_cut_date,] yts <- xts(log10(df_train$count), order.by=df_train$date) ss <- AddLocalLinearTrend(list(), yts) ss <- AddSeasonal(ss, yts, nseasons = 7) ss <- AddSeasonal(ss, yts, nseasons …
15 r  time-series  bayesian  mcmc  bsts 

1
ARIMAモデルの正則化
LASSO、リッジ、および線形回帰モデルの正則化のElastic-Netタイプを認識しています。 質問: この(または同様の)罰則付き推定をARIMAモデリングに適用できますか(空でないMAパーツを使用)。 pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 私のさらなる質問は次のとおりです。 (、)までのすべての項を含めることができますが、係数のサイズにペナルティを科せますか(潜在的にゼロまで)。それは理にかなっていますか?pmaxpmaxp_{max}qmaxqmaxq_{max} もしそうなら、それはRまたは他のソフトウェアに実装されていますか?そうでない場合、問題は何でしたか? やや関連する投稿はこちらにあります。

1
厳密に肯定的な予測を達成する方法は?
私は値が厳密に正である時系列に取り組んでいます。AR、MA、ARMAなどのさまざまなモデルを使用して、厳密に肯定的な予測を達成する簡単な方法を見つけることができませんでした。 私は予測を行うためにRを使用していますが、見つけることができるのは、以下に説明されている正のパラメーターを持つpredict.hts {hts}だけです。 階層的またはグループ化された時系列、パッケージhtsを予測する ## S3 method for class 'gts': forecast((object, h, method = c("comb", "bu", "mo", "tdgsf", "tdgsa", "tdfp", "all"), fmethod = c("ets", "rw", "arima"), level, positive = FALSE, xreg = NULL, newxreg = NULL, ...)) positive If TRUE, forecasts are forced to be strictly positive http://www.inside-r.org/packages/cran/hts/docs/forecast.gts 非階層的時系列に関する提案はありますか?最小、最大などのような他の制約の使用に関する一般化についてはどうですか? Rで実装されていなくても、記事、モデル、または有用な一般的な変数変換に関する提案を歓迎します。

2
手作業によるARIMA推定
ARIMAモデリング/ Box Jenkins(BJ)でパラメーターがどのように推定されるかを理解しようとしています。残念ながら、私が遭遇した本のいずれも、対数尤度推定手順などの推定手順を詳細に説明していません。私は非常に役立つウェブサイト/教材を見つけました。以下は、上記のソースからの方程式です。 L L (θ )= − n2ログ(2 π)− n2ログ(σ2)− ∑t = 1ne2t2つのσ2LL(θ)=−n2ログ⁡(2π)−n2ログ⁡(σ2)−∑t=1net22σ2 LL(\theta)=-\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \sum\limits_{t=1}^n\frac{e_t^2}{2\sigma^2} 自分でARIMA / BJの推定を学びたいです。そこで、を使用して手作業でARMAを推定するコードを記述しました。以下は私がRでやったことです、RRRRRR ARMAをシミュレートしました(1,1) 上記の方程式を関数として書きました シミュレートされたデータと最適関数を使用して、ARおよびMAパラメーターを推定しました。 また、statsパッケージでARIMAを実行し、ARMAパラメーターを手作業で行ったものと比較しました。 以下は比較です: **以下は私の質問です: 推定変数と計算変数の間にわずかな違いがあるのはなぜですか? ARIMAはRバックキャストで機能しますか、または推定手順はコードで以下に概説されているものとは異なりますか? 観測1でe1またはエラーを0として割り当てましたが、これは正しいですか? また、最適化のヘッセ行列を使用して予測の信頼限界を推定する方法はありますか? いつものようにあなたの助けに感謝します。 コードは次のとおりです。 ## Load Packages library(stats) library(forecast) set.seed(456) ## Simulate Arima y <- arima.sim(n = 250, list(ar = …

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
日次データを使用した時系列予測:リグレッサーを使用したARIMA
私は、約2年間の毎日のデータポイントを含む販売データの毎日の時系列を使用しています。いくつかのオンラインチュートリアル/例に基づいて、データの季節性を特定しようとしました。毎週、毎月、そしておそらく毎年の周期性/季節性があるようです。 たとえば、特に月の最初の給料日には、週の数日間続く給料日があります。また、いくつかの特定の休日の影響もあり、観測に注目することで明確に識別できます。 これらの観察のいくつかを装備して、私は次を試みました: (持つARIMA Arimaとauto.arima回帰(及び機能に必要な他のデフォルト値)を用いてR-予測パッケージから)。私が作成したリグレッサーは、基本的に0/1値のマトリックスです。 11か月(n-1)変数 12の休日変数 給料日の部分を理解できませんでした...それは思ったよりも少し複雑な効果だからです。給料日の効果は、月の1日の平日によって異なります。 時系列をモデル化するために7(つまり、週ごとの頻度)を使用しました。テストを試してみました-一度に7日間予測します。結果は合理的です。11週間の予測の平均精度は、週平均5%のRMSEになります。 TBATSモデル(R予測パッケージから)-複数の季節性(7、30.4375、365.25)を使用し、明らかにリグレッサーなし。週平均RMSE 3.5%では、精度はARIMAモデルよりも驚くほど優れています。 この場合、ARMAエラーのないモデルのパフォーマンスはわずかに向上します。#1で説明したARIMAモデルのHoliday Effectsの係数のみをTBATSモデルの結果に適用すると、週平均RMSEは2.95%に向上します 現在、これらのモデルの基礎理論に関する多くの背景や知識がなくても、このTBATSアプローチが有効なものであるかどうかはジレンマに陥っています。11週間のテストでRMSEを大幅に改善していますが、将来この精度を維持できるかどうか疑問に思っています。または、ARIMAからTBATSの結果にホリデー効果を適用することは正当化できます。すべての貢献者からのどんな考えでも高く評価されます。 テストデータのリンク 注:ファイルをダウンロードするには、「名前を付けてリンクを保存」を実行します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.