タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。


1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
予測における休日の影響を考慮する方法
週ごとの季節性を持つかなり予測可能な毎日の時系列があります。休日がない場合、かなり正確であると思われる予測(クロスバリデーションによって確認された)を思いつくことができます。ただし、休日がある場合、次の問題があります。 過去のすべての休日が0であっても、予測では休日に0以外の数値が表示されます。これは実際には主要な問題ではありません。問題は... 休日に発生しない処理は、休日の翌日に「波及」するため、これらの異常値は短期的な革新的であるように見えるため、単純なダミー変数はそれをカットしません。週ごとの季節性がない場合は、休日の5日前後にわたって休日に未処理のデータを配布するための見積もりを考え出すことができます(休日のリード/ラグの影響を反映する変数の作成方法/時系列分析におけるカレンダー効果?)ただし、「スピルオーバー」の分布は、休日が発生する曜日、および休日がクリスマスまたは感謝祭であるかどうかに依存します。クリスマスまたは感謝祭では、年の残りよりも低いレートで注文が行われます。 クロスバリデーションのいくつかのスナップショットを以下に示します。これらのスナップショットは、異なる曜日に表示される休日の予測結果(青)と実際の結果(赤)を示しています。 また、クリスマスの影響はそれが属する曜日に依存するのではないかと心配しています。また、6年ほどの履歴データしかありません。 予測の文脈でこれらのタイプの革新的な外れ値に対処する方法についての提案はありますか?(残念ながら、データを共有することはできません)

4
ARIMAでトレンド定常シリーズをモデル化できますか?
ARIMA(X)でのモデリングに必要な定常シリーズについて質問/混乱があります。私はこれを推論(介入の効果)の観点から考えていますが、予測と推論が反応に何らかの違いをもたらすかどうかを知りたいです。 質問: 私が読んだすべての入門資料は、シリーズが静止している必要があると述べています。これは私にとって理にかなっています。 私を混乱させているのは、ARIMA(X)のトレンドとドリフトの使用、および定常要件に対する影響(ある場合)です。 定数/ドリフト項および/またはトレンド変数を外生変数として使用する(つまり、「t」をリグレッサーとして追加する)と、シリーズが定常であるという要件が無効になりますか?シリーズに単位根がある場合(adfテストなど)、決定論的な傾向はあるが単位根がない場合、答えは異なりますか? または ARIMA(X)を使用する前に、差分および/またはトレンド除去を介して作成されたシリーズは常に静止している必要がありますか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
集計の下で保持される統計情報は何ですか?
ノイズの多い長い高解像度の時系列がある場合、何が起こっているのかをよりよく理解し、効果的にいくつかを削除するために、データを低い解像度(たとえば、毎日から毎月の値)に集約するのが理にかなっています雑音。 別の変数での線形回帰のを含む統計を集計データに適用する論文を少なくとも1つ見ました。それは有効ですか?ノイズが減少するため、平均化プロセスは結果をかなり変更すると考えていたでしょう。r2r2r^2 一般に、集計された時系列データに適用できる統計とそうでない統計はありますか?もしそうなら、どれ?多分線形結合であるもの?

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

2
時系列と回帰の関係と違い?
時系列と回帰の関係と違いは何ですか? モデルと仮定について、時系列モデルはそうではないが、回帰モデルは入力変​​数の異なる値の出力変数間の独立性を仮定するのは正しいですか?他のいくつかの違いは何ですか? 以下のための方法から、ダーリントンによってウェブサイト 時系列分析には多くのアプローチがありますが、最もよく知られている2つの方法は、回帰法とBox-Jenkins(1976)またはARIMA(AutoRegressive Integrated Moving Average)法です。このドキュメントでは、回帰方法を紹介します。3つの主な理由から、回帰法はARIMAよりもはるかに優れていると考えています 時系列の「回帰方法」がウェブサイト上にあるものと、Box-JenkinsまたはARIMA方法とどのように異なるかについて、私はよくわかりません。誰かがそれらの質問について洞察を与えてくれれば幸いです。 よろしくお願いします!

1
時系列データのリアルタイム正規化のアルゴリズム?
多数のセンサーストリームから最新のデータポイントのベクトルを取り込み、ユークリッド距離を以前のベクトルと比較するアルゴリズムに取り組んでいます。問題は、異なるデータストリームが完全に異なるセンサーからのものであるため、単純なユークリッド距離をとると、いくつかの値が大幅に強調されることです。明らかに、データを正規化する何らかの方法が必要です。ただし、アルゴリズムはリアルタイムで実行されるように設計されているため、正規化ではデータストリームに関する情報を全体として使用することはできません。これまでのところ、起動段階で各センサーに見られる最大値(最初の500データベクトル)を追跡し、そのセンサーからのすべての将来のデータをその値で除算しました。これは驚くほどうまく機能していますが、非常に洗練されていないように感じます。 このための既存のアルゴリズムを見つけるのにそれほど幸運はありませんでしたが、おそらく適切な場所を探していません。誰か知っていますか?または何かアイデアがありますか?実行平均(おそらくWellfordのアルゴリズムによって計算される)を使用する提案がありましたが、同じ値の複数の読み取り値が同じであると表示されない場合、これはかなり大きな問題のようです何かが欠けています。どんな考えでも大歓迎です!ありがとう!

1
機械学習を使用して財務時系列を予測するための最初のステップ学習
機械学習を使用して、将来の1つ以上のステップの財務時系列を予測する方法を把握しようとしています。 いくつかの記述データを含む財務時系列があり、モデルを作成し、そのモデルを使用して先のnステップを予測したいです。 私がこれまでやってきたことは: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 880.54 872.16 …

2
シリーズを静止させるためにトレンドを変えて差をつけることはできますか?
私は時間の経過とともに明らかに増加しているデータセットを持っています(通貨の為替レート、20年にわたる毎月のデータ)、私の質問は次のとおりです:これを達成しませんか?もしそうなら、これは二度違いがあると考えられますか、それとも単にトレンド除去され、一度違いましたか?

1
カウントデータの非季節化
Rでstl()を使用して、カウントデータをトレンド、季節、不規則なコンポーネントに分解しました。結果のトレンド値は、もはや整数ではありません。次の質問があります。 stl()はカウントデータを非季節化する適切な方法ですか? 結果のトレンドはもはや整数値ではないため、lm()を使用してトレンドコンポーネントをモデル化できますか?

3
異常検出の欠損値を含む時系列のSTL
私は、時系列の気候データから異常値を検出しようとしていますが、いくつかの観測値が欠落しています。Webを検索すると、利用可能な多くのアプローチが見つかりました。これらのうち、トレンドおよび季節成分を除去し、残りを調査するという意味で、stl分解は魅力的であるように思われます。STLの読み取り:黄土に基づく季節トレンド分解手順はstl、外れ値の影響を受けず、値が欠落していても適用できる変動性の割り当て設定を柔軟に決定できるようです。しかし、R4年の観察でそれを適用しようとし、http://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.htmlに従ってすべてのパラメータを定義すると、私は遭遇しますエラー: "time series contains internal NAs"(when na.action=na.omit)、および "series is not periodic or has less than two periods"(when na.action=na.exclude)。 周波数が正しく定義されていることを再確認しました。ブログで関連する質問を見てきましたが、これを解決できる提案は見つかりませんでした。stl欠損値があるシリーズに適用することはできませんか?アーティファクトを導入する(および結果として検出する)ことは望ましくないため、それらを補間することは非常に嫌です。同じ理由で、代わりにARIMAアプローチを使用することがいかに望ましいかはわかりません(値の欠落が依然として問題になる場合)。 stl欠損値のあるシリーズに適用する方法を知っている場合、私の選択が方法論的に適切でないと思われる場合、またはより良い提案がある場合は共有してください。私はこの分野ではかなり新しく、関連情報の山(一見...)に圧倒されています。

4
有馬以前または有馬内の時系列の差
Arimaを使用する前にシリーズを区別すること(それが必要であると仮定)またはArima内でdパラメーターを使用する方が良いですか? 同じモデルとデータでどのルートを採用するかによって、適合値がどのように異なるかは驚きました。それとも私は間違って何かをしていますか? install.packages("forecast") library(forecast) wineindT<-window(wineind, start=c(1987,1), end=c(1994,8)) wineindT_diff <-diff(wineindT) #coefficients and other measures are similar modA<-Arima(wineindT,order=c(1,1,0)) summary(modA) modB<-Arima(wineindT_diff,order=c(1,0,0)) summary(modB) #fitted values from modA A<-forecast.Arima(modA,1)$fitted #fitted from modB, setting initial value to the first value in the original series B<-diffinv(forecast.Arima(modB,1)$fitted,xi=wineindT[1]) plot(A, col="red") lines(B, col="blue") 追加: 私は一度シリーズを区別し、arima(1,0,0)を当てはめ、その後、arima(1,1,0)を元のシリーズに当てはめていることに注意してください。私は、差分ファイル上のarima(1,0,0)の適合値の差分を逆にしています(と思います)。 予測ではなく、適合値を比較しています。 以下がプロットです(赤はarima(1,1,0)、青は元のスケールに戻った後の差分系列のarima(1,0,0)です): ハインドマン博士の回答に対する回答: 1)Arima(1,1、 0)と手動で異なるシリーズのArima(1,0,0)?これはmodAに含まれていないという意味に関係していると思いますが、どうすればいいのか完全にはわかりません。 …
12 r  time-series  arima 

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.