タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
Rの秒/分間隔データの「頻度」値
予測にR(3.1.1)とARIMAモデルを使用しています。私が次のような時系列データを使用している場合、ts()関数で割り当てられる「頻度」パラメータはどうあるべきかを知りたい 分単位で区切られ、180日間に分散(1440分/日) 秒で区切られ、180日間(86,400秒/日)に広がります。 定義を正しく思い出せば、Rのtsでの「頻度」は、「季節」ごとの観測数です。 質問パート1: 私の場合の「季節」とは何ですか? 季節が「日」の場合、分数の「頻度」は1440、秒数の86,400ですか。 質問パート2: 「頻度」は、達成/予測しようとしているものにも依存しますか? たとえば、私の場合、非常に短期的な予測が必要です。毎回10分先に進みます。 季節を1日ではなく1時間と見なすことは可能でしょうか? その場合、分数の頻度は60、秒の頻度は3600ですか? たとえば、分データに頻度= 60を使用しようとしましたが、頻度= 1440と比較してより良い結果が得られました(使用されfourierているリンクはHyndmanによる下記のリンクを参照してください) http://robjhyndman.com/hyndsight/forecasting-weekly-data/ (予測は、予測精度の測定にMAPEを使用して行われました) 結果が完全に任意であり、頻度を変更できない場合。私のデータでfreq = 60を使用することの実際の解釈は何でしょうか? また、私のデータには1時間ごとおよび2時間ごとの季節性が含まれていることに言及する価値があると思います(生データと自己相関関数を観察することにより)

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Rで時系列に注意を払う
振り返ってみると、時系列分析を初めて開始したときのことです。どのツール、Rパッケージ、インターネットリソースについて知りたいですか? 私が尋ねようとしているのは、どこから始めればいいですか?具体的には、Rを使用した時系列分析に「新しい」人のために、実際にそれを要約するRのリソースがあります。
28 r  time-series 

5
ランダムウォークの分散が増加するのはなぜですか?
ランダムウォークのように定義される、ホワイトノイズです。現在の位置が前の位置と予測できない用語の合計であることを示します。Yt= Yt − 1+ etYt=Yt−1+etY_{t} = Y_{t-1} + e_tetete_t 、平均関数であることを証明できμt= 0μt=0\mu_t = 0 E(Yt)= E(e1+ e2+ 。。。+ et)= E(e1)+ E(e2)+ 。。。+ E(et)= 0 + 0 + 。。。+ 0E(Yt)=E(e1+e2+。。。+et)=E(e1)+E(e2)+。。。+E(et)=0+0+。。。+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + E(e_2) +... +E(e_t) = 0 + 0 + ... + 0 しかし、なぜ分散は時間とともに直線的に増加するのでしょうか? これは、新しい位置が前の位置と非常に相関しているため、「純粋な」ランダムではないことに関係していますか? 編集: …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
ランダムウォークが相互相関しているのはなぜですか?
平均して、ピアソン相関係数の絶対値は、ウォークの長さに関係なく、任意のペアの独立したランダムウォークに近い定数であることがわかりました。0.560.42 誰かがこの現象を説明できますか? ランダムなシーケンスのように、歩行の長さが長くなるにつれて相関が小さくなると予想しました。 私の実験では、ステップ平均0とステップ標準偏差1のランダムガウスウォークを使用しました。 更新: データをセンタリングするのを忘れていたので、0.56代わりにでした0.42。 相関を計算するPythonスクリプトは次のとおりです。 import numpy as np from itertools import combinations, accumulate import random def compute(length, count, seed, center=True): random.seed(seed) basis = [] for _i in range(count): walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) ))) if center: walk -= np.mean(walk) basis.append(walk / np.sqrt(np.dot(walk, walk))) …


2
ARIMAの値p、d、qは何ですか?
arimaR の関数では、どういうorder(1, 0, 12)意味ですか?割り当てることができる値どのようなものがありp、d、q、およびそれらの値を見つけるためのプロセスは何ですか?
27 r  time-series  arima 

2
Rを使用した時系列のSTLトレンド
私はRと時系列分析を初めて使用します。私は長い(40年)毎日の気温の時系列の傾向を見つけようとしており、さまざまな近似を試みました。1つ目は単純な線形回帰で、2つ目は黄土による時系列の季節的分解です。 後者では、季節成分が傾向よりも大きいようです。しかし、どのようにトレンドを定量化できますか?その傾向がどれほど強いかを伝える数字をお願いします。 Call: stl(x = tsdata, s.window = "periodic") Time.series components: seasonal trend remainder Min. :-8.482470191 Min. :20.76670 Min. :-11.863290365 1st Qu.:-5.799037090 1st Qu.:22.17939 1st Qu.: -1.661246674 Median :-0.756729578 Median :22.56694 Median : 0.026579468 Mean :-0.005442784 Mean :22.53063 Mean : -0.003716813 3rd Qu.:5.695720249 3rd Qu.:22.91756 3rd Qu.: 1.700826647 Max. :9.919315613 …
27 r  time-series  trend 


6
複数の時系列にわたる同じモデルの推定
私は時系列の初心者の経験があり(いくつかのARIMA推定/予測)、完全には理解できない問題に直面しています。どんな助けも大歓迎です。 私はすべて同じ時間間隔と同じ頻度で複数の時系列を分析しています。すべて同じタイプのデータを記述しています。各シリーズは1つの変数に過ぎず、私が見ている他の対応する予測変数はありません。 すべてのシリーズを記述する単一のモデルを推定するように依頼されました。たとえば、すべてのシリーズに適合する同じ次数、係数などを持つ1つのARIMA(p、d、q)を見つけることができると想像してください。私のスーパーバイザーは、各シリーズを個別に推定することを望んでおらず、シリーズ間の依存関係を伴うある種のVARモデルを実行することも望んでいません。 私の質問は次のとおりです。このようなモデルを何と呼びますか。それをどのように推定/予測しますか?コード例を使用する方が簡単な場合は、SASとRの両方を話します。

1
SARIMAXを直感的に理解する方法
電気負荷の予測に関する論文を理解しようとしていますが、内部の概念、特にSARIMAXモデルに苦労しています。このモデルは、負荷を予測するために使用され、理解できない多くの統計概念を使用します(私はコンピューターサイエンスの学部生です-統計の中で私を素人と見なすことができます)。私はそれがどのように機能するかを完全に理解する必要はありませんが、少なくとも直観的に何が起こっているのかを理解したいと思います。 私は、SARIMAXを小さなピースに分割し、これらの各ピースを個別に理解し、それらをまとめようとしています。助けてくれませんか?ここに私がこれまでに持っているものがあります。 私はARとMAで始めました。 AR:自己回帰。私は回帰とは何かを学びましたが、私の理解から、単に質問に答えます:値/ポイントのセットが与えられた場合、これらの値を説明するモデルを見つけるにはどうすればよいですか?そのため、たとえば、これらすべての点を説明できる線を見つけようとする線形回帰があります。自己回帰は、以前の値を使用して値を説明しようとする回帰です。 MA:移動平均。私は実際ここでかなり迷っています。移動平均とは何かを知っていますが、移動平均モデルは「通常の」移動平均とは何の関係もないようです。モデルの式はARにぎこちなく似ているようで、インターネットで見つけた概念を理解できないようです。MAの目的は何ですか?MAとARの違いは何ですか? これでARMAができました。私は、その後から来統合限り私は理解しているように、単純に増加または減少のいずれか、ARMAモデルは傾向を持つことができるようにするという目的を果たします。(これは、ARIMAが非静止を許可するということと同等ですか?) 季節性からSが来ると、ARIMAに周期性が追加されます。これは、例えば、負荷予測の場合、基本的に毎日午後6時に負荷が非常に似ていると言います。 最後に、外生変数からのXは、基本的に天気予報などの外部変数をモデルで考慮することを可能にします。 ようやくSARIMAXができました!私の説明は大丈夫ですか?これらの説明は厳密に正確である必要はないことを認識してください。誰かがMAが直感的に行うことを説明できますか?

4
ARIMAモデルをあてはめる前に時系列をログ変換するタイミング
以前は予測プロを使用して単変量時系列を予測していましたが、ワークフローをRに切り替えています.Rの予測パッケージには多くの便利な機能が含まれていますが、自動化を実行する前に行わないデータ変換が1つあります.arima()。いくつかのケースでは、予測プロは予測を行う前に変換データを記録することを決定しますが、その理由はまだわかりません。 私の質問は次のとおりです:ARIMAメソッドを試す前に、時系列をいつログ変換する必要がありますか? /編集:回答を読んだ後、次のようなものを使用します。xは私の時系列です。 library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } これは理にかなっていますか?

3
Rで時系列の滑らかさを測定する方法は?
Rの時系列の滑らかさを測定する良い方法はありますか?例えば、 -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 よりもはるかに滑らかです -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 それらは同じ平均と標準偏差を持ちますが。時系列にわたってスムーズなスコアを提供する機能があれば、それはクールです。
25 r  time-series 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.