タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

2
(0,1)によってバインドされたパーセンテージを予測するための時系列モデルとは何ですか?
これは浮かび上がるはずです--- 0と1の間で止まっているものの予測。 私のシリーズでは、自動回帰コンポーネントと平均回帰コンポーネントも疑っています。そのため、ARIMAのように解釈できるものが欲しいのですが、将来1000%まで飛ばしたくありません。 。 ロジスティック回帰のパラメーターとしてARIMAモデルを使用して、結果を0と1の間に制限しますか? または、ベータ回帰は(0,1)データに適していることをここで学びました。これを時系列にどのように適用できますか?これを簡単にフィッティングおよび予測できる優れたRパッケージまたはMatlab関数はありますか?

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
難しいデータセットのモデルは何ですか?(ネスティングの多い数百の時系列)
分析するのに非常に複雑なデータセットがあり、それに対する適切な解決策を見つけることができません。 ここに事があります: 1.生データは本質的に昆虫の歌の録音です。各曲はいくつかのバーストで構成され、各バーストはサブユニットで構成されています。すべての個人が5分間記録されました。バーストの数と記録内でのそれらの位置、およびバーストごとのサブユニットの数は、個人間で非常に異なる場合があります。 2.各サブユニットのキャリア周波数(基本周波数)がわかっているので、それを分析します。 私の問題: 1.バースト内の周波数は明らかに独立していません(かなり安定していますが、サブユニットn-1の周波数はサブユニットnに影響します)。 2.バーストは、録音内でも独立していません。 3.時間とともに周波数が下がるので、それらの独立性はさらに低くなります(個人が歌うのに飽きて、曲の周波数がどんどん低くなります)。落ち込みは直線的なようです。 4.ネスト= 2つの場所AとBに3つの複製された母集団があります。したがって、A1、A2、A3とB1、B2、B3があります。 私がしたいこと: 1. 2つの場所の頻度の違いを特徴付ける(統計的にテストする) 2. 2つの場所の間で落ちる周波数を特徴付けます(それらの1つで速く落ちるかどうかを確認してください)。 どうやってするの: それが私が助けを必要とする理由です:私にはわかりません。私のケースは、通常一緒に見られない問題を組み合わせているようです。私は混合モデル、GAM、ARIMA、ランダム効果と固定効果について読みましたが、それを行うための最良の方法を本当に確信できません。しかし、それをグラフ化すると(頻度〜サブユニット番号n)、2つの場所の違いは非常に明確です。温度(周波数を高くする)など、他の変数も考慮する必要があります。 私は考えました: レプリケート内の個人を入れ子にし、複製を場所(個人/複製/場所)内に入れ子にします。 ランダムな「バースト」効果を使用して、各バースト内の変動を考慮します。 固定された「記録中のバースト位置」効果を使用して、周波数の低下を測定します(実際には線形であることを期待しています)。 正しいでしょうか? このようなシナリオに使用できる特別なタイプのモデルはありますか?

3
一般的な加法ポアソンモデル問題におけるスプラインdfの選択
SASを使用したポアソン一般加法モデルを使用して、いくつかの時系列データを近似していPROC GAMます。一般的に言えば、組み込みの一般化された相互検証手順によって、単一のスプラインの少なくとも適切な「開始点」が生成されるようにしてきました。これは、時間の非線形関数と単一のパラメトリック項(1つのI実際に興味があります)。 これまでのところ、私のデータセットの1つを除いて、かなりスムーズに機能しています。そのデータセットには132の観測値があり、GCVは128自由度のスプラインを示唆しています。それは...間違っているようです。大きな過ち。さらに重要なのは、それがまったく安定していないことです。2番目のアプローチを試してみました。「推定値の変更」基準などを使用して、パラメトリック項の推定値が変化しなくなったときに自由度の追加を停止しました。何も変わらない場合はなぜ制御を追加し続けるのですか。 問題は、見積もりがまったく安定していないことです。次の自由度を試しましたが、ご覧のとおり、パラメトリックな用語が乱暴に跳ね返っています。 DF: Parametric Estimate: 1 -0.76903 2 -0.56308 3 -0.47103 4 -0.43631 5 -0.33108 6 -0.1495 7 0.0743 8 0.33459 9 0.62413 10 0.92161 15 1.88763 20 1.98869 30 2.5223 40-60 had convergence issues 70 7.5497 80 7.22267 90 6.71618 100 5.83808 110 4.61436 128 1.32347 この特定のデータビットに対してdfに関して何を使用する必要があるかについて、私はまったく直感がありません。dfを選択する方法に関する他のアイデアはありますか?スプラインの重要性を見るべきですか? …

1
毎週の季節性の基礎となる、季節ごとに調整された月ごとの成長
副趣味として、私は(特にRを使用して)予測時系列を調査してきました。 私のデータでは、1日あたりの訪問数があり、毎日約4年前に遡ります。このデータには、いくつかの明確なパターンがあります。 月曜日から金曜日は訪問数が多く(月曜日と火曜日が最高)、土日曜日は大幅に減ります。 1年のうち特定の時期に落ちる(例:米国の祝日の訪問数が大幅に減る、夏の成長が鈍くなる) 毎年大幅な成長 このデータで次の年を予測でき、季節ごとに調整された月ごとの成長に使用できると便利です。月次ビューで私を失望させる主なものは次のとおりです。 特定の月は、他の月よりも月/火が多くなります(それは何年にもわたって一貫していません)。したがって、より多くの平日に発生する月は、それに応じて調整する必要があります。 週の番号付けシステムは年によって52〜53に変更されるため、週の調査も困難に思え、それをts処理できないようです。 私はその月の平日の平均を取ることを考えていますが、結果の単位は少し奇妙であり(平均平日の訪問数の増加)、それは有効なデータをドロップするでしょう。 この種類のデータは時系列で一般的であると思います(たとえば、オフィスビルでの電気使用量はこのようなものかもしれません)、特にRでそれをモデル化する方法について誰かがアドバイスを持っていますか? 私が使用しているデータは非常に簡単です、それは次のように始まります: [,1] 2008-10-05 17607 2008-10-06 36368 2008-10-07 40250 2008-10-08 39631 2008-10-09 40870 2008-10-10 35706 2008-10-11 18245 2008-10-12 23528 2008-10-13 48077 2008-10-14 48500 2008-10-15 49017 2008-10-16 50733 2008-10-17 46909 2008-10-18 22467 そして、現在に至るまでこのように続き、全体的な成長傾向、米国の休日の週あたりにいくらか落ち込み、夏の間は成長が全般的に鈍化しています。

4
自己相関およびニューラルネットワークにMatlabを使用する場合、時系列データのギャップ/ NaNを処理する方法は?
時系列の測定(高さ-1次元シリーズ)があります。観測期間中、いくつかの時点で測定プロセスがダウンしました。したがって、結果のデータは、データにギャップがあったNaNのベクトルです。これは、MATLABを使用して、自己相関の計算(autocorr)とニューラルネットワークの適用()の際に問題を引き起こしていますnnstart。 これらのギャップ/ NaNはどのように処理されるべきですか?これらをベクターから削除するだけですか?または、それらのエントリを補間された値に置き換えますか?(もしそうなら、MATLABでどうやって)

1
予測モデルの応答変数が異なる場合に予測を組み合わせる方法は?
前書き 予測の組み合わせでは、人気のあるソリューションの1つは、いくつかの情報基準の適用に基づいています。モデルに対して推定された赤池基準を例にとると、からの差を計算でき、RP_j = e ^ {(AIC ^ *-AIC_j)/ 2}は次のように解釈できますモデルjの真の確率。重みは次のように定義されますA ICjあ私CjAIC_jjjjA ICjあ私CjAIC_jA IC∗= 分jA ICjあ私C∗=分jあ私CjAIC^* = \min_j{AIC_j}R Pj= e(A IC∗− A ICj)/ 2RPj=e(あ私C∗−あ私Cj)/2RP_j = e^{(AIC^*-AIC_j)/2}jjj wj= R PjΣjR Pjwj=RPjΣjRPjw_j = \frac{RP_j}{\sum_j RP_j} 問題 私が克服しようとしている問題は、モデルが異なるように変換された応答(内因性)変数で推定されることです。たとえば、一部のモデルは年間成長率に基づいており、別のモデルは四半期ごとの成長率に基づいています。したがって、抽出されたA ICjあ私CjAIC_j値は直接比較できません。 試したソリューション 重要なのはA ICあ私CAICの違いだけなので、応答変数の変換に不変なベースモデルのA ICあ私CAIC(たとえばlm(y~-1)、パラメーターなしでモデルを抽出しようとした)を使用して、jjj番目のモデルとベースモデルA ICあ私CAIC。ただし、ここでは弱点が残っているようです。違いは、応答変数の変換によって影響を受けます。 おわりに 「すべてのモデルを同じ応答変数で推定する」などのオプションは可能ですが、非常に時間がかかります。問題を解決する方法が他にない場合、苦痛な決定に行く前に、迅速な「解決策」を探したいと思います。

2
変数が自己相関している場合、回帰を信頼できますか?
両方の変数(依存および独立)は自己相関効果を示します。データは時系列で定常的です 回帰を実行すると、残差が相関していないように見えます。私のダービン・ワトソン統計は臨界値よりも大きいので、エラー項が正の相関関係にないという証拠があります。また、エラーのACFをプロットすると、相関関係がないように見え、Ljung-Box統計が臨界値よりも小さくなっています。 回帰出力を信頼できますか?t統計は信頼できますか?

1
PACF手動計算
SASとSPSSが部分自己相関関数(PACF)に対して行う計算を再現しようとしています。SASでは、Proc Arimaを通じて生成されます。PACF値は、系列の遅れた値に対する対象の系列の自己回帰の係数です。関心のある変数は販売なので、lag1、lag2 ... lag12を計算し、次のOLS回帰を実行します。 Yt=a0+a1Yt−1+a2Yt−2+a3Yt−3+…+a12Yt−12.Yt=a0+a1Yt−1+a2Yt−2+a3Yt−3+…+a12Yt−12.Y_t=a_0+a_1Y_{t-1}+a_2Y_{t-2}+a_3Y_{t-3}+\ldots+a_{12}Y_{t-12}. 残念ながら、私が得た係数は、SASまたはSPSSが提供するPACF(1から12のラグ)にも近づいていません。助言がありますか?何か問題がありますか?私の頭に浮かぶのは、このモデルの最小二乗推定は適切ではない可能性があり、おそらく別の推定手法を使用する必要があるということです。 前もって感謝します。

2
時系列のゼロ平均部分を見つけるための最新の方法
ノイズの多い時系列があり、平均がゼロの部分と平均がゼロの部分に分割する必要があります。境界をできるだけ正確に見つけることが重要です(境界が正確にどこにあるかを明らかにすることは、少し主観的です)。私はcusumバリアントをこれに適合させることができると思いますが、cusumは主に、セグメンテーション戦略全体を完全に対処しないままにする単一の変更を見つけることに関するものです。 この問題については多くの調査が行われたと思いますが、見つけることができませんでした。 PSこれらの時系列のデータ量は非常に大きく、つまり最大で数億のサンプルであり、個々のサンプルは数百の成分を持つベクトルになる可能性があるため、合理的に迅速に計算できる方法は重要な要素です。 PPSセグメンテーションタグがないため、分類タグがあります。


1
RのACFプロットの破線
カウパートウェイトとメトカーフの 『R入門時系列』という本を読みます。36ページでは、行はと述べています。行があるというRフォーラムをここで読みました。 ±1.96/ √− 1 / n ± 2 / n−−√−1/n±2/n-1/n \pm 2/\sqrt{n}± 1.96 / n−−√±1.96/n\pm 1.96/\sqrt{n} 私は次のコードを実行しました: b = c(3,1,4,1) acf(b) そして、行がように見えます。それで、明らかに本は間違っていますか?または、何が書かれているかを誤解していますか?著者は少し違うことについて話していますか?± 1.96 / 4–√±1.96/4\pm 1.96/\sqrt{4} *注意:1.96と2の細部の不一致には関心がありません。これは、実際の1.96 sdに対して2 sdの経験則を使用している作者にすぎないと思います。 編集:私はこのシミュレーションを実行しました: acf1 = 0 acf2 = 0 acf3 = 0 for(i in 1:5000){ resids= runif(1000) residsacf = c(acf(resids,plot= FALSE)) acf1[i] …
9 r  time-series 

2
細胞シグナルデータの時系列のピークの評価
細胞シグナル測定における応答の存在を測定しています。最初に行ったのは、データの時系列に平滑化アルゴリズム(Hanning)を適用してから、ピークを検出することでした。私が得るものはこれです: 応答の検出を「ええ、継続的な低下の上昇を見る」よりも客観的にしたいのであれば、どのアプローチが最適でしょうか?線形回帰によって決定されたベースラインからのピークの距離を取得することですか? (私はpythonコーダーであり、統計についてほとんど理解していません) ありがとうございました

2
グラフがピークとプラトーに達したときを見つける方法は?
これは非常に基本的に聞こえるかもしれませんが、この問題があります。ウィンドウサイズが300のデータのキューがあります。新しいデータが一方の端に追加され、古い値がもう一方の端から削除されます。 キューデータの一貫性は多かれ少なかれ続くと期待しています。たとえば、10、12、15、10、20、その後急激に上昇し始めます。15、10、20、22、25、26、28、30、32 ... 150程度までです。そこで、データは少し変動する可能性があり、その後同様の勾配(120、118、116、115 ...)で20程度まで下がります。 このデータシリーズのターニングポイントをプログラムで特定しようとしていますが、コードが思ったよりも頻繁にピークを検出しています。グラフが上昇しているとき、決定的な転換点に到達したとき、およびグラフが下降し始めたときは、どうすれば特定できますか?変化率の変化率を見てみようか?

3
時系列モーターデータの分類に最適なアルゴリズム
私は機械制御プロジェクトに取り組んでいます。運転中のモーターの電流を測定できます。以下は、正常に動作する2つのモーターのサンプルデータです。赤いトレースは1つのモーターからの電流を示し、青いトレースは別のモーターからの電流を示します。マシンの動作に関する問題を特定するためのアルゴリズムを試してみたいと思います。問題は、モーター電流が非常に高い、モーター電流がゼロに近い、操作の終わりに電流が増加する、通常よりも時系列が短い、以下の一般的な操作とは異なる一般的な問題である可能性があります。これを達成するための良いアルゴリズムを誰かが提案できますか?私がよく知っているのはニューラルネットワークだけです。モーター電流での実際のデータのExcelファイルを入れました

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.