タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

2
ベクトル自己回帰モデルとは何ですか?
これを経営の観点から理解したいと思っています。たとえば、線形回帰を説明している場合、それはいくつかのデータポイントを通る最適な直線であり、「x」の特定の値の「y」値を予測するために使用できます。VARに類似した説明はありますか?統計に強いバックグラウンドはありません。

1
Googleの相関ではどの方法が使用されますか?
これが最近のGoogle相関クエリです:http : //www.google.com/trends/correlate/search?e= internet+usage&t =weekly# そのリンクの検索ボックスを見るとわかるように、「インターネットの使用」と入力すると、残りはGoogleが行いました。クエリ「データマイニング」との「相関」として0.9298の値を示しています。しかし、Googleホワイトペーパー[PDF]の2ページ目を読むと、次のように書かれています。 The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online …

1
回帰を伴う時系列データの相互検証
「通常の」相互検証に精通していますが、単純な線形回帰関数で相互検証を使用しながら時系列予測を行いたいと思います。2つの質問を明確にするために簡単な例を書き留めます。1つはトレーニング/テストの分割について、もう1つは目的が異なるnについて予測することである場合にモデルをトレーニング/テストする方法について1つの質問で、nの予測ステップで、前進。 (1)データ 次のように、タイムポイント1、...、10のデータがあるとします。 timeseries = [0.5,0.3,10,4,5,6,1,0.4,0.1,0.9] (2)教師あり学習に役立つ形式にデータを変換する 私が理解している限り、「ラグ」、つまりデータのシフトを使用して、教師あり学習に適したデータセットを作成できます。 input = [NaN,0.5,0.3,10,4,5,6,1,0.4,0.1] output/response = [0.5,0.3,10,4,5,6,1,0.4,0.1,0.9] ここでは、出力ベクトルを作成するために、時系列を1つずつシフトしています。私が理解している限り、線形回帰モデルの入力として入力を使用し、応答の出力を使用できます(NaNは、ランダムな値に置き換えて近似できます)。 (3)質問1:相互検証(「バックテスト」) 今2スプリットを実行したいのですが、テストセットだけでなく列車もシフトする必要がありますか? つまり次のようなものです: 列車セット: 独立変数:[NaN、0.5,0.3,10,4,5] 出力/応答変数:[0.5,0.3,10,4,5,6] テストセット: 独立変数:[1,0.4,0.1] 出力/応答変数:[0.4,0.1,0.9] (ii)質問2:異なるラグを事前に予測する: 明らかなように、従属変数への従属変数を1だけシフトしました。ここで、5つのタイムステップを事前に予測できるモデルをトレーニングしたいとします。このラグを1に保ちながら、モデルを使用してn + 1を予測できます。 、...、n + 5、...または、独立変数から従属変数へのシフトを5に変更しますか?違いは何ですか?

1
PACFプロットの簡単な説明
同僚にいくつかのACFおよびPACFプロットを提示しています。プロットを解釈する方法と、プロットがどのように見えるかに基づいてpとqを決定する方法を説明できますが、PACFプロットが実際に何を意味するのかを簡単に直感的に説明することはできません。 私はここで説明を読みましたが、少し長い風に感じています:https : //people.duke.edu/~rnau/411arim3.htm

2
ベイズ推定におけるフィルタリングと平滑化
観測された系列指定して、観測できない変数をサンプリングすることを目的とするMCMCアプリケーションの事後分布に直面しています。x={xt}Tt=0x={xt}t=0Tx=\{x_t\}_{t=0}^{T}y={yt}Tt=0y={yt}t=0Ty=\{y_t\}^T_{t=0} ただし、条件付き事後者はとして読み取り、はa追加の構造パラメーターのベクトル。私の理解によれば、の値を推測するには知識が必要であるため、これは平滑化の問題になります。p(xt|yt+1,yt,yt−1,xt−1,xt+1,Θ),p(xt|yt+1,yt,yt−1,xt−1,xt+1,Θ),p(x_t | y_{t+1}, y_t, y_{t-1} ,x_{t-1}, x_{t+1}, \Theta),ΘΘ\Thetayt+1yt+1y_{t+1}xtxtx_t ただし、同じ問題を扱う記事では、シリーズをフィルターシリーズと呼んでいます。xxx ここで何か不足していますか?

5
ステップ変化検出
分析関数をいくつかの実験データに合わせるために、非線形最小二乗法を使用しています。私はアルゴリズムにいくつかの初期推定値を提供する必要があるので、これを自動的に行う方法を見つけようとしています(これは私が行っている目視ではなく)。 これは、正規分布されたランダムノイズを分析関数に追加することによって作成された、いくつかのシミュレーションデータです。 データのこのステップ変化の位置を確実に検出しようとしています。データポイントの平均分散を計算し、この値と大幅に異なるデータのポイントを探すことで、ある程度の成功を収めましたが、このアプローチはS / N比によって非常に制限されているようです。 統計があまりわからないので、問題を解決するために何を調べなければならないかについて、何らかの方向性を示したいと思っています。 ありがとうございました! -xyデータへのビンのリンクの貼り付けを編集 http://pastebin.com/QTawFex3

2
多変量時系列クラスタリング
多変量時系列のグループを収集しています。たとえば、2000の時系列があります。各時系列は12次元です。 多変量時系列をクラスター化できる体系的なモデル/アルゴリズムはありますか?たとえば、他とは非常に異なる時系列を特定したいと思います。 さらに、オンライン監視では、このアルゴリズムを時間どおりに実行する場合があります。たとえば、10分ごとに、この種のアルゴリズムを10分をカバーする時系列に対して実行します。これに関して効率的なアルゴリズムはありますか?

1
Rでの「予測」と「予測」によるARIMAの予測[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。 30個の値で構成されるデータは、時系列に格納されtimeます。 にARIMAモデリングを適用した後time、forecast関数を使用して将来の値を予測しました。 model = arima(time, order = c(3,2,1)) prediction = forecast.Arima(model,h=10) prediction step is not working and showing error Error in ts(x) : object is not a matrix 上記のように、エラーメッセージが表示されます。しかし、私がするなら model = arima(time[1:25], order = c(3,2,1)) prediction = forecast.Arima(model,h=10) できます。なぜそうなのですか? predict関数を使用したとき model = arima(time, order = c(3,2,1)) …

2
定常ARMA方程式の非定常解
「静止」とは「弱い静止」を意味します。 「定常」AR(1)方程式を考えます。 Xt=φXt−1+εt,Xt=φXt−1+εt,X_t=\varphi X_{t-1}+\varepsilon_t, ここでは離散時間モーメント、はゼロ平均ホワイトノイズ(一部のiidシーケンス)、。定常解(つまり、方程式を満たす離散時系列)があることはよく知られています。表ししかし、我々は、一連の他の時間導入することができる「固定」式(明確にするための非定常溶液であるように見える、自由ではないので、明らかであるがゼロ平均)。t∈Zt∈Zt\in\mathbb{Z}εtεt\varepsilon_tφ∈(−1,1)φ∈(−1,1)\varphi\in(-1,1)Xt.Xt.X_t.Yt=Xt+φtYt=Xt+φtY_t=X_t+\varphi^tE[Yt]E[Yt]\mathbb{E}[Y_t]tttXtXtX_t より一般的な定常AR()プロセスを考えると、弱い定常性特性を何らかの形で損なうことは可能ですか?または、一般的に、定常的な離散時間AR(またはARMA)方程式に非定常解があることは本当ですか?ppp

1
機械学習手法を使用した時系列センサーデータのモデリング?
私は大気質センサーに取り組んでいます。そのうちのいくつかは電気化学ガスセンサーです。背景として、これらのセンサーは、バイアス電圧を印加し、センサーを流れる電流を測定するポテンシオスタット回路によって刺激されます(通常、ナノアンペアのオーダー)。センサーを流れる電流の量は、センサーがさらされたターゲットガスの濃度に関係します。電流はまた、圧力、相対湿度、温度、およびクロスセンシティブなガスへの曝露にも関連しており、私の存在の悩みの種です。 従来、データモデリングアプローチを使用して、センサーから測定された電流をセンサーメーカーの推奨に基づいてターゲットガスの濃度として解釈していました。これを行うには、清浄な空気に対する応答を温度範囲で測定し、その特性を使用して、特性評価されたベースライン応答からの偏差をターゲットガスへの暴露に起因すると解釈します。 参照機器も、制御された濃度のガスにセンサーをさらす手段もないため、そのモデルの品質を実際に評価する手段はありませんが、センサーを対象のガスに順番にさらすことができますターゲットガスにかなり反応していることを確認します。 私が経験している課題は、前述の特性化によってパラメータ化されたデータモデルが長期間(つまり1週間)にわたって、温度、相対湿度、および圧力の自然変動の下で清浄な空気にさらされると、不合理に大きい解釈された濃度の変動。うるさくはありませんが、ドリフトします。そのため、データモデルが非常に不足していると思います。 そのため、アルゴリズム(機械学習)アプローチがより良い結果をもたらす可能性があると私は思いました。清浄な空気条件下での温度、相対湿度、圧力、およびセンサー電流(すべて実数値)の1分の解像度データがある場合、センサー電流を温度、相対湿度の関数としてモデリングするのに最適なツールはどれですか。と圧力?私が最も心配しているのは、入力空間の妥当な断面を表す条件を実際に作成できないことです。 次に、従来のデータモデルを使用して、予測ベースラインからの偏差を解釈し、ガス濃度を推定します。 片側の注意点は、温度と相対湿度は物理的に相関しているということですが、絶対湿度を温度、相対湿度、および圧力から数学的に取り消すことができました。 更新/説明 これが上記から明らかでない場合、目標は、変化する圧力、湿度、および温度条件下の清浄な空気環境でセンサーによって生成されるベースライン電圧を推定できるようにすることです-その偏差を使用する手段としてターゲット種ガスの濃度を計算する際の対象信号として予測ベースライン。したがって、基本的には、計装ドメインで通常ゼロキャリブレーションと呼ばれるものに対する代替アプローチを調査しています。 対象種に関する真実のデータがあれば、予測ベースラインからの偏差に関するビジネスをスキップして、電圧、温度、湿度、および圧力の時間ベクトルから直接濃度を推定できる可能性があるようです。

3
堅牢なステップ関数を時系列に適合させる方法は?
いくつかのレベルをホバリングする、やや騒々しい時系列があります。 たとえば、次のデータ: 実線のデータがあり、破線の見積もりを取得したい。区分的に一定でなければなりません。 ここで試すのに適切なアルゴリズムは何ですか? これまでのところ、私のアイデアは0度のPスプライン(ただし、ノットを配置する場所を見つける方法は?)または構造破壊モデルを中心に扱っています。回帰木は現在私が持っている最高のアイデアですが、理想的には、y = 250の2つのレベルが等しいy値にあるという事実を考慮した方法を探しています。私が正しく理解していれば、回帰ツリーはこれらの2つの区間を2つの異なるグループに分割し、それぞれの平均は異なり​​ます。 それを生成したRコードはこれです: set.seed(20181118) true_fct = stepfun(c(100, 200, 250), c(200, 250, 300, 250)) x = 1:400 y = true_fct(x) + rt(length(x), df=1) plot(x, y, type="l") lines(x, true_fct(x), lty=2, lwd=3)

2
AR(1)をMA(
AR(1)プロセスは Xt=ϕXt−1+εtXt=ϕXt−1+εt X_t = \phi X_{t-1} + \varepsilon_t この式を再帰的に使用すると、 Xt=ϕ(ϕXt−2+εt−1)+εt=ϕ2Xt−2+ϕεt−1+εt=⋯=ϕkXt−k+∑j=0kϕjεt−jXt=ϕ(ϕXt−2+εt−1)+εt=ϕ2Xt−2+ϕεt−1+εt=⋯=ϕkXt−k+∑j=0kϕjεt−j X_t = \phi(\phi X_{t-2} + \varepsilon_{t-1}) + \varepsilon_t = \phi^2X_{t-2} + \phi\varepsilon_{t-1} + \varepsilon_t = \cdots = \phi^k X_{t-k} + \sum_{j=0}^k \phi^j\varepsilon_{t-j} させたら k→∞k→∞k\to\infty、 我々が得る Xt=limk→∞(ϕkXt−k+∑j=0kϕjεt−j)=limk→∞(ϕkXt−k)+∑j=0∞ϕjεt−jXt=limk→∞(ϕkXt−k+∑j=0kϕjεt−j)=limk→∞(ϕkXt−k)+∑j=0∞ϕjεt−j X_t = \lim_{k\to\infty}(\phi^k X_{t-k} + \sum_{j=0}^k \phi^j\varepsilon_{t-j}) = \lim_{k\to\infty}(\phi^k X_{t-k}) + \sum_{j=0}^\infty \phi^j\varepsilon_{t-j} AR(1)とMA(∞∞\infty)の間の双対性は、2つの間に同等性があり、XtXtX_tを次のように書くことができることを示しています …

4
時系列を生成したプロセスが時間とともに変化したかどうかをテストする方法
問題 マシンによって生成された時系列データが2つのばらばらの期間にわたってあります-およそ2016年に1か月、2018年にもう1か月です。 各タイムステップで、観測された変数は観測された変数の別のセットで説明できるとドメインの専門家は仮定しています。tttYtYtY^tバツt1、… 、バツtdバツ1t、…、バツdtX_1^t, \ldots, X_d^t このプロセスが時間とともに変化したかどうかをどのようにテストできますか?変数分布が時間の経過とともに変化したかどうかをテストしようとしていないことに注意してください。との関係が時間とともに変化したかどうかをテストしたいと思います。YYYバツ私バツ私X_iYYY 現在のアプローチ を生成した基礎となるプロセスをモデル化する方法として、を指定してを予測するために、2016年のデータに時系列モデル(たとえば、ガウスプロセス)をたとします。YtYtY^tバツt1、… 、バツtdバツ1t、…、バツdtX_1^t, \ldots, X_d^tYtYtY^t ドメインの専門家は、おそらくこのモデルを使用して、2018年の与えられた場合の変数を予測し、残差を使用してモデル(2016年のプロセスを表す)がそうであることを推測できると示唆しました2018年も同じではありません。この時点以降の継続方法は不明です。YtYtY^tバツtバツtX^t 私が考えていること 2016年と2018年の残差が同じ分布から生成されているかどうかをテストする必要がありますか、それともKolmogorov-Smirnovテストなどを使用して適合度テストを実行する必要がありますか?このアプローチに関する私の懸念は、2018年のサンプル外のデータは2016年のサンプル内のトレーニングデータよりもエラーが大きくなる可能性が高いため、このテストでは誤検知が発生する可能性が高いということです。この影響を調整/説明する方法はありますか? 2016年と2018年の2つのモデルを適合させ、これらの2つのモデルが「同じ」または「異なる」ことをテストする方法を使用する必要がありますか?たとえば、1つの可能性は、2016年と2018年のデータにそれぞれ当てはめられた2つのガウスプロセス間のKL発散を計算することです。このアプローチの他の提案や問題はありますか? 共和分に関するいくつかの投稿を見ました。しかし、私はこの概念を完全に理解していません。これは関連していますか? 一般に、この種の問題にどのように取り組むことができますか?私はこれをオンラインで検索してみましたが、クエリの精度が不足しているため(この領域についてはよく知らないため)、関連する結果が多く得られません。検索するトピック/キーワードに関する簡単なヒント/コメント、または目を通すための本/論文にも感謝します。 親切に私は発見的手法に基づく方法ではなく、原則的な(できれば統計的)アプローチを探していることに注意してください。良い例は、以下のChowテストとその変形を示唆する回答です。

1
データ補完のためのグアシアのプロセス
私は最近、ゲルマンらのガウスプロセスに出くわしました。(2013)、そして私は時系列データの補完に使用するためのそれらの潜在的なアプリケーションについてもっと学びたいと思っています。対象となるデータは、フォトプレチスモグラム(PPG、人の指の先に取り付けられ、血液量の変化を測定する光学センサー)を使用して収集された個人の心拍数の単一の可変時系列です。 問題は、乱雑なデータの特定のセクションがあることです。これらのアーティファクトを処理するために既存の編集戦略が開発されましたが、それらは主にEKGセンサーから収集されたデータに基づいて最適化されました。PPGの低速波形は、取得したデータへのアプリケーションを時々少し不格好にします。 簡単に言うと、データの手動編集を改善するために作成したR Shiny Appからの適切な信号に囲まれた孤立した乱雑なセクションの例を次に示します。 薄い灰色の線は、元の信号を表します(2kHから100Hzにダウンサンプリング)。赤い点が付いた黒い実線は、時間の経過とともにプロットされた心拍間隔(連続する心拍の間の秒単位の時間)のプロットです。心拍間隔は、これらのデータの分析における主要な変数になります。 たとえば、個人の心拍間隔を使用して、心拍変動を評価できます。残念ながら、ほとんどの編集戦略はばらつきを抑える傾向があります。さらに、これらのアーティファクトが存在する可能性が高い場合(参加者の移動のため)、特定のタスクがあります。つまり、これらの乱雑なセクションに削除のマークを付けて、ランダムに欠落しているものとして扱うことができませんでした。 利点は、心拍数の特性について多くのことを知っていることです。たとえば、成人の安静時の範囲は通常60〜100 BPMです。また、心拍数は呼吸周期の関数として変化することもわかっています。呼吸周期は、それ自体、静止している可能性のある周波数の範囲がわかっています。最後に、心拍数の変動に影響を与える低周波サイクルがあることを知っています(心拍数に対する交感神経と副交感神経の影響の組み合わせによって影響を受けると考えられています)。 上記の「悪いデータ」の比較的小さなセクションは、実際には私の主要な関心事ではありません。私は、このような孤立したケースでうまく機能するように見える、ある程度正確な季節補間アプローチを開発しました。 悪い信号と良い信号が定期的に混在しているデータセクションを処理するときに、さらに問題が発生します。 私がゲルマンらから理解しているように。(2013)、ガウス過程に対していくつかの異なる共分散関数を指定することが可能であるようです。これらの共分散関数は、観測されたデータと、成人(または子供)の心拍出量と呼吸出力の測定値について、かなりよく知られている事前分布によって通知されます。 たとえば、いくつかの心拍数が観測されたとします(fHRfHRf_{HR})、その平均心拍数に支配されるガウス過程を次のように指定することができます(これらのモデルを適用しようとするのは今回が初めてなので、ここで計算が終わっているかどうかをお知らせください)。 g1(T )∽ G P(0 、k1)g1(t)∽GP(0,k1)g_1(t) \backsim GP(0, k_1) どこ k1(t 、t』)=σ21e x p ( −2 s iん2(π(t −t』)fHRHz)2l21)k1(t,t′)=σ12exp(−2sin2(π(t−t′)fHRHz)2l12)k_1(t, t') = \sigma_1^2exp\Bigg(-\frac{2sin^2(\frac{\pi(t-t')f_{HR}}{Hz})}{2l_1^2}\Bigg) ここで、はサンプリングレート、は時間のインデックスです。HzHzHzttt 例に基づくGelman et al。(2013)彼らのテキストで提供して、この共分散関数を修正して特定の期間にわたる変動を可能にすることは可能であるようです。私にとっては、呼吸サイクル内および上記の低周波心拍変動サイクル内での推定値の変動を考慮したいと思います。fHRfHRf_{HR} 私の理解する最初の目標を達成するには、呼吸速度()のガウスプロセスと共分散関数、および共分散関数に両方のプロセスの機能を組み込んだガウスプロセスを指定する必要があります。fRfRf_R g2(T )∽ G P(0 、k2)g2(t)∽GP(0,k2)g_2(t) \backsim GP(0, k_2) どこ k2(t 、t』)=σ22e …

1
予測の合計
予測について質問があります。すべての倉庫に複数の顧客/国が割り当てられている倉庫を中心に在庫モデルを構築しています。私はすべての国の売上に関するデータを別々に持っているので、このデータに対して自分の予測を実行して、国の需要の予測を取得できます。倉庫レベルでも同じことができます。つまり、まず倉庫ごとのすべての過去の売上を合計し、次にこれを予測に使用します。 両方の予測が必要です。在庫は倉庫の予測に基づいて決定されますが、その他のコストは国や私が使用する特定のサービス手段に基づいて決定されます。 国ごとに個別に予測し、予測された需要を追加して倉庫の予測を取得できますか?または、すべてを個別に予測することもできますか?その後、それはまだ互いに調和していますか? Example: Sales: country 1: 0 2 0 1 1 5 0 3 country 2: 1 1 4 3 0 3 2 0 --------------------------- wh: 1 3 4 4 1 8 2 3 したがって、whレベルは必要な在庫数です。国レベルは、たとえば、国に依存する流通コスト用です。国1と2の予測を行い、予測を追加して、これを入力として使用しますか。または、すべて個別に予測しますか。そして、もし国レベルでそれが断続的な需要であるかもしれないけれども、whレベルでのスムーズな需要に帰着したらどうでしょう? 編集: 私はHoltWintersを使用してRで予測して何かを試しました。倉庫レベルでの予測のSSEは15410であり、国レベルでの予測のSSEは18576なので、最初の方が優れていると言えます(この特定の例では) 。しかし、それでも、両国を個別に予測し、これを予測として使用して、国ベースのコストを決定することは可能ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.