タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

9
カウント<20のカウントデータの時系列
私は最近結核クリニックで働き始めました。現在治療中の結核症例の数、投与された検査の数などについて定期的に話し合います。何かが異常であるかどうかを推測するだけではないように、これらのカウントのモデリングを開始したいと思います。残念ながら、私は時系列のトレーニングをほとんど受けていませんでした。私の露出のほとんどは、非常に連続的なデータ(株価)または非常に多くのカウント(インフルエンザ)のモデルを扱ってきました。ただし、月ごとに0〜18のケース(平均6.68、中央値7、変数12.3)を扱い、次のように配布されます。 [時間の霧に負けたイメージ] [グルーに食われるイメージ] このようなモデルに対処する記事をいくつか見つけましたが、これらのアプローチを実装するために使用できるアプローチとRパッケージの両方について、あなたからの提案を聞いていただければ幸いです。 編集: mbqの答えは、私がここで何を求めているかについて、より慎重に考えることを余儀なくさせました。私は毎月のカウントに夢中になりすぎて、質問の実際の焦点を失いました。私が知りたいのは、たとえば2008年以降の(かなり目に見える)減少は、症例の総数の減少傾向を反映していますか?2001年から2007年までの毎月の症例数は安定したプロセスを反映しているように思えます。多少の季節性があるかもしれませんが、全体的に安定しています。2008年から現在まで、そのプロセスは変化しているように見えます。ランダム性と季節性により毎月のカウントが上下する可能性がある場合でも、ケースの総数は減少しています。プロセスに実際の変更があるかどうかをテストするにはどうすればよいですか?そして、衰退を特定できれば、

1
アテンションメカニズムとは何ですか?
ここ数年、さまざまなディープラーニングの論文で注意メカニズムが使用されてきました。Open AIの研究責任者であるIlya Sutskever氏は、熱心に称賛しています:https ://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 パデュー大学のEugenio Culurcielloは、純粋に注意ベースのニューラルネットワークを優先して、RNNとLSTMを放棄すべきだと主張しています。 https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 これは誇張のように見えますが、純粋に注意に基づくモデルがシーケンスモデリングタスクで非常にうまく機能していることは否定できません。 ただし、注意ベースのモデルとは正確には何ですか?そのようなモデルの明確な説明をまだ見つけていません。履歴値を与えられた多変量時系列の新しい値を予測したいとします。LSTMセルを持つRNNでそれを行う方法は非常に明確です。アテンションベースのモデルで同じことをどのように行うのでしょうか?

3
時系列でのAIC対クロス検証:小さなサンプルの場合
時系列設定でのモデル選択に興味があります。具体的には、ラグオーダーが異なるARMAモデルのプールからARMAモデルを選択するとします。最終的な意図は予測です。 モデルの選択は次の方法で実行できます 相互検証、 情報基準の使用(AIC、BIC)、 他の方法の中で。 Rob J. Hyndmanは、時系列の相互検証を行う方法を提供します。比較的小さなサンプルの場合、クロス検証で使用されるサンプルサイズは、元のサンプルサイズと質的に異なる場合があります。たとえば、元のサンプルサイズが200の観測値である場合、最初の101の観測値を取得し、ウィンドウを102、103、...、200の観測値に拡張して100の交差検証結果を取得することにより、交差検証を開始することを考えることができます。明らかに、200回の観測に対して合理的に控えめなモデルは、100回の観測に対して大きすぎる可能性があり、そのため検証エラーは大きくなります。したがって、相互検証は、あまりにもpar約なモデルを体系的に優先する可能性があります。これは、サンプルサイズの不一致による望ましくない効果です。 相互検証の代わりに、モデル選択に情報基準を使用します。予測が重要なので、AICを使用します。AICは時系列モデルのサンプル外のワンステップ予測MSEを最小化することに漸近的に相当しますが(Rob J. Hyndmanによるこの投稿によると)、サンプルが私が気にするサイズはそれほど大きくありません... 質問:小規模/中規模サンプルの時系列相互検証よりもAICを選択する必要がありますか? 関連するいくつかの質問を見つけることができるここでは、こことここ。

2
自己相関時間の定義(有効なサンプルサイズの場合)
文献には、弱定常時系列の自己相関時間に関する2つの定義があります。 τa= 1 + 2 ∑k = 1∞ρk対τb= 1 + 2 ∑k = 1∞| ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| ここで、はラグでの自己相関です。 kρk= Cov [ Xt、Xt + h]ヴァー[ Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk 自己相関時間の1つの用途は、「有効なサンプルサイズ」を見つけることです。時系列の観測値があり、その自己相関時間がわかっている場合、τnnnττ\tau neff= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 平均を求めるために、相関するサンプルの代わりに独立したサンプル。データからを推定することは簡単ではありませんが、その方法はいくつかあります(Thompson 2010を参照)。τnnnττ\tau 絶対値なしの定義は、文献ではより一般的です。しかし、可能性を認めています。Rと「coda」パッケージの使用:τ A &lt; 1τaτa\tau_aτa&lt; 1τa&lt;1\tau_a<1 require(coda) …

1
複数の季節成分を含む時系列を分解する方法は?
2つの季節成分を含む時系列があり、その系列を次の時系列成分(トレンド、季節成分1、季節成分2、不規則成分)に分解したいと思います。私の知る限り、Rでシリーズを分解するためのSTL手順では、季節成分は1つしか許可されないため、シリーズを2回分解してみました。まず、次のコードを使用して、頻度を最初の季節成分に設定します。 ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") 次に、dec_1次のように頻度を2番目の季節成分に設定することにより、分解された系列の不規則成分()を分解しました。 ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") このアプローチには自信がありません。また、複数の季節性を持つシリーズを分解する他の方法があるかどうかを知りたいです。また、tbats()R 予測パッケージの関数を使用すると、複数の季節性を持つシリーズにモデルを適合させることができますが、それを使用してシリーズを分解する方法はわかりません。

3
多変量時系列予測のサポートベクトル回帰
サポートベクトル回帰を使用して時系列予測を試みた人はいますか? サポートベクターマシンを理解し、サポートベクター回帰を部分的に理解していますが、時系列、特に多変量時系列をモデル化するためにそれらを使用する方法を理解していません。 私はいくつかの論文を読み込もうとしましたが、レベルが高すぎます。特に多変量時系列に関連して、誰もが彼らがどのように機能するかを簡単に説明できますか? 編集:少し詳しく説明するために、株価の例で説明してみましょう。 N日間の株価があるとします。次に、毎日、特徴ベクトルを作成できます。特徴ベクトルは、単純な場合、前日の価格と当日の価格になります。各特徴ベクトルの応答は、翌日の価格になります。したがって、昨日の価格と今日の価格を考えると、目的は翌日の価格を予測することです。私が理解していないのは、6か月のトレーニングデータがあるとします。最近の特徴ベクトルをどのように重視するのでしょうか。

2
平均絶対スケール誤差(MASE)の解釈
平均絶対誤差(MASE)は、Koehler&Hyndman(2006)によって提案された予測精度の尺度です。 MA SE= MA EMA Ei n − s a m p l e 、nは私のV EMASE=MAEMAE私n−sample、na私veMASE=\frac{MAE}{MAE_{in-sample, \, naive}} ここで、は実際の予測によって生成される平均絶対誤差です。 一方、は、サンプル内データで計算された単純な予測(統合された時系列の変化なし予測など)によって生成された平均絶対誤差です。M A E i n − s a m p l e 、MA EMAEMAE I(1)MA Ei n − s a m p l e 、nは私のV EMAE私n−sample、na私veMAE_{in-sample, \, naive}私(1 )私(1)I(1) (正確な定義と式については、Koehler&Hyndman(2006)の論文をご覧ください。) MA …


3
ACFおよびPACFプロットを分析する
ACFプロットとPACFプロットを分析して正しい軌道に乗っているかどうかを確認したい: 背景:(Reff:Philip Hans Franses、1998) ACFとPACFの両方が重要な値を示しているので、ARMAモデルが私のニーズを満たすと思います ACFはMA部分、つまりq値を推定するために使用でき、PACFはAR部分、すなわちp値を推定するために使用できます。 モデル次数を推定するために、a。)ACF値が十分に消滅するかどうか、b。)ACFが過差分信号を送るかどうか、c。)ACFとPACFが特定のラグで有意かつ容易に解釈可能なピークを示すかどうかを調べます ACFとPACFは、1つのモデルだけでなく、他の診断ツールを検討した後に選択する必要のある多くのモデルを提案する場合があります それを念頭に置いて、ACF値がラグ4で消滅し、PACFが1と2でスパイクを示すため、最も明白なモデルはARMA(4,2)であると考えます。 別の分析方法としては、PACFに2つの大きなスパイクがあり、ACFに1つの大きなスパイクがあるため、ARMA(2,1)になります(その後、はるかに低いポイント(0.4)から値が消えます)。 サンプル内の予測結果を見ると(単純な平均絶対誤差を使用)、ARMA(2,1)はARMA(4,2)よりもはるかに優れた結果を提供します。そこで、ARMA(2,1)を使用します! ACFプロットとPACFプロットの分析方法と結果を確認できますか? 感謝します! 編集: 記述統計: count 252.000000 mean 29.576151 std 7.817171 min -0.920000 25% 26.877500 50% 30.910000 75% 34.915000 max 47.430000 Skewness of endog_var: [-1.35798399] Kurtsosis of endog_var: [ 5.4917757] Augmented Dickey-Fuller Test for endog_var: (-3.76140904255411, 0.0033277703768345287, {'5%': -2.8696473721448728, '1%': …

4
どのような状況でMAプロセスまたはARプロセスが適切ですか?
プロセスがそれ自体の以前の値に依存する場合、それはARプロセスであることを理解しています。以前のエラーに依存する場合、MAプロセスです。 これら2つの状況のいずれかが発生するのはいつですか?プロセスがMA vs ARとして最適にモデル化されることの意味に関する根本的な問題を明らかにする堅実な例はありますか?

1
2つの信号を整列/同期するにはどうすればよいですか?
私はいくつかの研究を行っていますが、分析段階で立ち往生しています(統計の講義にもっと注意を払うべきでした)。 私は2つの同時信号を収集しました:体積に統合された流量と胸部拡張の変化。信号を比較し、最終的に胸部拡張信号からボリュームを導き出したいと思います。しかし、最初にデータを調整/同期する必要があります。 記録が正確に同時に開始されず、胸部拡張がより長い期間キャプチャされるため、胸部拡張データセット内でボリュームデータに対応するデータを見つけ、それらがどれだけ適切に調整されているかを測定する必要があります。2つの信号がまったく同じ時間に開始しない場合、または異なるスケールと異なる解像度のデータ間でこれを実行する方法がわからない。 2つの信号の例(https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVKNmllbGVXNHc)を添付しました。さらに提供できるものがあればお知らせください。

1
時系列のロジスティック回帰
ストリーミングデータ(多次元時系列)のコンテキストでバイナリロジスティック回帰モデルを使用して、過去の観測から与えられたデータ(行)の従属変数の値を予測します。私が知る限り、ロジスティック回帰は伝統的に事後分析に使用されており、各従属変数は既に(検査または研究の性質により)設定されています。 ただし、時系列の場合、履歴データの観点から従属変数について(オンザフライで)予測したい場合(たとえば、最後の秒の時間枠)、そしてもちろん前の従属変数の推定値?ttt また、上記のシステムが長期にわたって見られる場合、回帰が機能するためにはどのように構築する必要がありますか?最初にデータの最初の50行にラベルを付けて(つまり、従属変数を0または1に設定して)トレーニングし、次にベクトル現在の推定値を使用して、新しい確率を推定する必要がありますか到着したばかりのデータ(つまり、システムに追加されたばかりの新しい行)の従属変数は0または1ですか?ββ{\beta} 私の問題をより明確にするために、私はデータセットを行ごとに解析し、以前のすべての依存または説明の知識(観察または推定)を前提として、バイナリ結果(依存変数)の予測を試みるシステムを構築しようとしています固定時間枠に到着した変数。私のシステムはRerlにあり、推論にRを使用しています。

3
Auto.arima with daily data:季節性/周期性をキャプチャする方法?
毎日の時系列にARIMAモデルを当てはめています。データは2010年2月1日から2011年7月30日まで毎日収集され、新聞販売に関するものです。週ごとの販売パターンを見つけることができるので(販売されたコピーの1日の平均量は月曜日から金曜日まで通常同じで、土曜日と日曜日に増加します)、この「季節」を捉えようとしています。売上データ「データ」を指定して、次のように時系列を作成します。 salests&lt;-ts(data,start=c(2010,1),frequency=365) そして、auto.arima(。)関数を使用して、AIC基準を介して最適なARIMAモデルを選択します。結果は常に非季節ARIMAモデルですが、例として次の構文でいくつかのSARIMAモデルを試してみると: sarima1&lt;-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7)) より良い結果を得ることができます。tsコマンド/ arimaの仕様に何か問題はありますか?毎週のパターンは非常に強いので、キャプチャするのにそれほど多くの困難はないと思います。任意のヘルプは非常に便利です。ありがとう、ジュリア・デッピエーリ 更新: すでにいくつかの引数を変更しました。より正確には、プロシージャはを設定するとARIMA(4,1,3)を最良のモデルとして選択しますがD=7、AICおよびその他の適合指数および予測もまったく改善されません。季節性と周期性の混同によるいくつかの間違いがあると思います。 Auto.arima呼び出しが使用され、取得された出力: modArima&lt;-auto.arima(salests,D=7,max.P = 5, max.Q = 5) ARIMA(2,1,2) with drift : 1e+20 ARIMA(0,1,0) with drift : 5265.543 ARIMA(1,1,0) with drift : 5182.772 ARIMA(0,1,1) with drift : 1e+20 ARIMA(2,1,0) with …

2
時系列をクラスター化する方法は?
クラスター分析について質問があります。3000社があり、5年間の電力使用量に応じてクラスター化する必要があります。各企業には、5年間の1時間ごとの価値があります。一部の企業が、一定期間にわたって使用電力のパターンが同じかどうかを調べたいと思います。結果は、電力使用量の毎日の予測に使用する必要があります。SPSSで時系列をクラスター化する方法についてアイデアをお持ちの場合は、私と共有してください。

4
機能主成分分析(FPCA):それは何ですか?
機能的主成分分析(FPCA)は、私が偶然見つけたものであり、理解できなかったものです。それは何ですか? Shang、2011による「機能的主成分分析の調査」を参照してください。 PCAは、「次元の呪い」(Bellman 1961)のために、機能データの分析において深刻な困難に直面します。「次元の呪い」は、高次元空間におけるデータの希薄性に由来します。PCAの幾何学的特性が有効なままであっても、数値的手法が安定した結果を提供する場合でも、サンプル共分散行列は母集団共分散行列の不十分な推定値である場合があります。この困難を克服するために、FPCAはPCAよりもサンプルの共分散構造を調べるより有益な方法を提供します[...] わかりません。この論文が説明している欠点は何ですか?PCAは、「次元の呪い」のような状況を処理する究極の方法であると想定されていませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.