タグ付けされた質問 「trend」

データ内の観察可能なパターン。


2
Rを使用した時系列のSTLトレンド
私はRと時系列分析を初めて使用します。私は長い(40年)毎日の気温の時系列の傾向を見つけようとしており、さまざまな近似を試みました。1つ目は単純な線形回帰で、2つ目は黄土による時系列の季節的分解です。 後者では、季節成分が傾向よりも大きいようです。しかし、どのようにトレンドを定量化できますか?その傾向がどれほど強いかを伝える数字をお願いします。 Call: stl(x = tsdata, s.window = "periodic") Time.series components: seasonal trend remainder Min. :-8.482470191 Min. :20.76670 Min. :-11.863290365 1st Qu.:-5.799037090 1st Qu.:22.17939 1st Qu.: -1.661246674 Median :-0.756729578 Median :22.56694 Median : 0.026579468 Mean :-0.005442784 Mean :22.53063 Mean : -0.003716813 3rd Qu.:5.695720249 3rd Qu.:22.91756 3rd Qu.: 1.700826647 Max. :9.919315613 …
27 r  time-series  trend 

1
STL s.windowの幅を設定する基準
を使用RしてSTL分解を実行s.windowし、季節成分がどれだけ速く変化するかを制御します。値を小さくすると、より迅速に変更できます。季節性ウィンドウを無限に設定することは、季節性成分を強制的に周期的にすることと同等です(つまり、年間を通して同一)。 私の質問: 毎月の時系列(頻度が等しい)がある場合、どの基準を使用して設定する必要がありますか?121212s.window それと時系列周波数の間にリンクはありますか?

2
時系列と異常検出
時系列の異常を検出するためのアルゴリズムをセットアップしたいので、そのためにクラスタリングを使用する予定です。 生の時系列データではなく、クラスタリングに距離行列を使用する必要があるのはなぜですか? 異常の検出には、密度ベースのクラスタリング、DBscanとしてのアルゴリズムを使用しますが、この場合、それは機能しますか?データをストリーミングするためのオンラインバージョンはありますか? 異常を発生する前に検出したいので、トレンド検出アルゴリズム(ARIMA)を使用するのが良い選択でしょうか?

2
Rの拡張ディッキーフラーテストにおけるkラグの理解
Rでいくつかのユニットルートテストを試しましたが、k lagパラメーターをどのように作成すればよいかわかりません。tseriesパッケージの拡張Dickey FullerテストとPhilipps Perronテストを使用しました。明らかに、デフォルトのkパラメータ(の場合)は、系列の長さにのみ依存します。別のkを選択した場合kkkadf.testkkk値、かなり異なる結果が得られます。nullを拒否する: Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order = 6, p-value = 0.3542 alternative hypothesis: stationary # k=6 プラスPPテスト結果: …
15 r  time-series  trend 


1
従属変数のラグを回帰モデルに含める必要があるのはいつですか?どのラグですか?
従属変数として使用するデータは次のようになります(カウントデータです)。周期的な要素とトレンド構造を持っているため、回帰が何らかの形で偏っていることがわかります。 役立つ場合に備えて、負の二項回帰を使用します。データは、個人(州)ごとに1つのダミーのバランスパネルです。表示されている画像には、すべての状態の従属変数の合計が表示されていますが、ほとんどの状態のみが同様の動作をしています。固定効果モデルを検討しています。従属変数はあまり強く相関しておらず、研究の一部はこの変数間の予期しない関係を見つけることであるため、弱い関係は実際には良いものです。 従属変数の遅延変数を含めないことの正確な危険性は何ですか? 1つ含める必要がある場合、どの1つをテストする必要がありますか。 実装はRで行われています。 注:私はこの投稿を読みましたが、問題の解決にはなりませんでした。

6
突然の変化を特徴付ける方法は?
この質問は基本的すぎるかもしれません。データの時間的傾向について、「急激な」変化が起こるポイントを知りたい。たとえば、下の最初の図では、統計的方法を使用して変化点を見つけたいと思います。そして、変化点が明らかでない他のデータ(2番目の図のような)にそのような方法を適用したいのですが、そのような目的のための一般的な方法はありますか?

1
ドリフトのあるシリーズとトレンドのあるシリーズの違い
ドリフトのある系列は、としてモデル化できます。 ここで、はドリフト(定数)、です。 yt= c + ϕ yt − 1+ εtyt=c+ϕyt−1+εty_t = c + \phi y_{t-1} + \varepsilon_tcccϕ = 1ϕ=1\phi=1 傾向のある系列は、としてモデル化できます。ここで、はドリフト(定数)、は確定的な時間傾向、です。yt= c + δt + ϕ yt − 1+ εtyt=c+δt+ϕyt−1+εty_t = c + \delta t + \phi y_{t-1} + \varepsilon_tcccδtδt\delta tϕ = 1ϕ=1\phi=1 どちらのシリーズもあり、どちらの動作も増加していると思います。私(1 )I(1)I(1) 動作が増加する新しいシリーズがある場合、このシリーズがドリフトまたはトレンドのあるシリーズであることをどのようにして知ることができますか? 私は2つの実行できるADFテストを: ADFテスト1:系列がドリフトのあるであるという帰無仮説私(1 )I(1)I(1) ADFテスト2:Null仮説は、系列が傾向のあるである私(1 )I(1)I(1) …

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
2つの類似した時系列がいつ分岐し始めるかを検証する統計的テスト
タイトルから、2つの類似した時系列間の有意差を特定するのに役立つ統計的検定が存在するかどうかを知りたいと思います。具体的には、下の図を見て、系列が時間t1で分岐し始めたこと、つまり、系列間の差が大きくなり始めたことを検出したいと思います。さらに、シリーズ間の差が有意でない場合も検出します。 これを行うのに役立つ統計的検定はありますか?

2
時系列セットの比較
比較したい3つの時系列データセットがあります。彼らは約12日間の3つの別々の期間に服用されています。これらは、最終週に大学図書館で受けた平均人数、最大人数、最小人数です。時間あたりの人数が連続していないため、平均、最大、最小を実行する必要がありました(時系列の定期的なデータギャップを参照)。 データセットは次のようになります。12夜の場合、夜ごとに1つのデータポイント(平均、最大、または最小)があります。データが取得されたのは3学期で、12日間の懸念期間のみです。したがって、たとえば、2010年春、2010年秋、および2011年5月には、それぞれ12ポイントのセットがあります。以下はチャートの例です。 学期ごとにパターンがどのように変化するかを見たいので、私は学期を重ねました。ただし、リンク先のスレッドで説明したように、中間にデータがないため、学期を完全に平手打ちすることはお勧めできません。 問題は、次のとおりです。各学期の出席パターンを比較するためにどのような数学的手法を使用できますか? 私がしなければならない時系列に特別なことはありますか、それとも単純にパーセントの差をとることができますか?私の目標は、最近のライブラリの使用量が増加または減少していると言うことです。それを示すためにどのテクニックを使用すればよいかわからない。

6
傾向を特定するための信号処理原理の疑わしい使用
非常にノイズの多い長期データの傾向を見つけてみることを提案しています。データは基本的に、約8か月の間に約5mm移動したものの毎週の測定値です。データは1mmの精度であり、1週間に+/- 1または2mmで定期的に変化する非常に騒々しいものです。最も近いmmまでのデータしかありません。 基本的な信号処理と高速フーリエ変換を使用して、生データからノイズを分離する予定です。基本的な前提は、データセットをミラーリングして既存のデータセットの最後に追加すると、データの全波長を作成できるため、データが高速フーリエ変換で表示され、うまくいけば、データを分離できることです。 。 これは私には少し怪しいように思えますが、これは追跡する価値のある方法ですか、それともデータセットをミラーリングして追加する方法になんらかの根本的な欠陥がありますか?ローパスフィルターの使用など、他のアプローチも検討しています。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
ナイーブベイズの人気は高まっていますか?どうして?
これは、2004年1月から2017年4月までの「ナイーブベイズ」のフレーズで取得したGoogleのトレンド結果です(リンク)。この図によると、2017年4月の「ナイーブベイズ」の検索率は、全期間の最大値よりも約25%高くなっています。これは、この単純で古い方法が注目を集めていることを意味しますか?どうして? (Sycoraxのコメントによる)合理的な説明は、この人気は機械学習への関心の高まりの間接的な影響であるということです。しかし、Naive Bayesなどのいくつかの方法は、決定木やSVMなどの他の方法よりも注目されているようです。これは、次の図から明らかです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.