タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

2
時系列での異常検出
私は機械学習を使用した初心者です(Ngのコースを終了しました)。Pythonでscikit-learnを使用しています。私たちのシステムの異常を検出する最良の方法を見つけたいです。 定期的(数分/時間ごと)に発生するイベントが継続的に発生しているため、異常が発生したときに検出したいと考えています。データの例: ID | epoch-time | duration (Sec) | status | is_manual 0400 | 1488801454 | 500 | completed | 1 0401 | 1488805055 | 500 | completed | 1 0402 | 1488812254 | 40000 | failed | 1 6831 | 1488805050 | 200 | failed | 0 . ... …

1
ラグ1と2で負の自己相関が発生する可能性はありますか?
私の統計ノートを通過するいくつかの心のゲームをやっているだけ... ラグ1と2で負の値を持つACFを見てきました-ここで空白を持っているかもしれませんが、ラグ1で負のACが高くなると、(-1,1、-1,1、 ...)そのため、ACが正と負を交互に繰り返すことを期待しますか? ここで私が完全に間違っている場合-ラグ1と2の両方に強い負のACがある簡単な構成例はありますか? ありがとうございました!

2
PCAの最初の固有ベクトルが、基になるトレンドの導関数に似ているのはなぜですか?
PCAを使用して空間的に関連するいくつかの時系列を分析しています。最初の固有ベクトルは系列の平均トレンドの導関数に対応しているようです(以下の例を参照)。なぜ最初の固有ベクトルがトレンド自体ではなくトレンドの導関数に関連しているのか知りたいのですが。 データは行列に配置され、行は各空間エンティティの時系列であり、列(およびPCAの次元)は年です(つまり、以下の例では、7年ごとに10の時系列)。PCAの前に、データも平均中心です。 Stanimirovic et al。、2007も同じ結論に達しましたが、それらの説明は、線形代数についての私の理解を少し超えています。 [更新]- 提案どおりにデータを追加します。 [Update2]-回答済み。結果をプロットするときに、コードが固有ベクトル行列の転置を誤って使用していることを発見しました(excel_walkthrough)(ありがとう@amoeba)。この特定のセットアップで転置固有ベクトル/微分関係が存在するのは単なる偶然のようです。この投稿で数学的かつ直観的に説明されているように、最初の固有ベクトルは、実際には、その派生物ではなく、基になるトレンドに関連しています。

3
不規則な時系列データの傾向
何十年にもわたって不規則な間隔で大きな水域から取られた水温測定のデータセットがあります。(興味がある場合は、テキサス州ガルベストンベイ) データの先頭は次のとおりです。 STATION_ID DATE TIME LATITUDE LONGITUDE YEAR MONTH DAY SEASON MEASUREMENT 1 13296 6/20/91 11:04 29.50889 -94.75806 1991 6 20 Summer 28.0 2 13296 3/17/92 9:30 29.50889 -94.75806 1992 3 17 Spring 20.1 3 13296 9/23/91 11:24 29.50889 -94.75806 1991 9 23 Fall 26.0 4 13296 9/23/91 11:24 29.50889 …

2
自己相関がない可能性がありますが、HAC標準エラーの使用
私はいくつかのリグレッションを実行しており、安全を確保したいと思ったため、全体にわたってHAC(不均一分散と自己相関の一貫性)標準エラーを使用することにしました。シリアル相関が存在しないいくつかのケースがあるかもしれません。これはとにかく有効なアプローチですか?欠点はありますか?

1
異なる周波数の正弦波を学習するRNN
再帰型ニューラルネットワークのウォームアップとして、別の周波数の別の正弦波から正弦波を予測しようとしています。 私のモデルは単純なRNNであり、そのフォワードパスは次のように表すことができます。 rtzt= σ(WI N⋅バツt+WR E C⋅rt − 1))=WO U T⋅rtrt=σ(W私ん⋅バツt+Wrec⋅rt−1))zt=Woあなたt⋅rt \begin{aligned} r_t &= \sigma(W_{in} \cdot x_t + W_{rec} \cdot r_{t-1}))\\ z_t &= W_{out} \cdot r_t \end{aligned} どこ σσ\sigma sigmoïd関数です。 入力と期待される出力の両方が同じ周波数の2つの正弦波であるが(おそらく)位相シフトがある場合、モデルは適切な近似に適切に収束できます。 ただし、次の場合、モデルは極小値に収束し、常にゼロを予測します。 入力: x = s i n (t )バツ=s私ん(t)x = sin(t) 予想される出力: y= s i n (t2)y=s私ん(t2)y = sin(\frac{t}{2}) …

3
フーリエ解析によるデータの非季節性
2つの基本的な動作があるデータがあります。まず、周期性があります。正弦曲線のように見えます。第二に、データポイントには一定の増加があります。したがって、100のデータポイントが増加せずにある場合、正弦曲線のように見えます。しかし、その成長率のため。マグニチュードはポイント1からポイント100に増加します。 グーグルで検索するための正しい用語が何であるかわかりません。この種のデータ分析の方法はありますか?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ポアソン、精度、予測間隔の予測
Poissonグループ1-26 months of dataに応じて、グループ分けされたのデータを予測しようとしています。プールされたデータの65% has a value of 0や25% a value of 1。トレンドや季節性を見つけることができなかったので、いくつかの異なるステーショナリーモデルをテストし始めました。Moving average (3)、Moving Average (6)、Simple Exponential Smoothing、NaïveとSimple Mean。 私は1-6カ月先に予想して使用する必要があるMAD、MSEとRMSEモデルの精度をテストします。最も正確なのと、平均シンプルであるように見えますRMSE of 1とMAD of 0,638。これは本当に高いと思いますが、どうすればよいのかわかりません。 私が考えていなかった予測方法がありますか?私は何かを見落としているか? 私は予測区間については見つけることができた唯一のものだったF+tsとF-tsしてF、予想通りtとt分布としてalfa (n-2)およびs標準偏差など。本当に信頼できるソースだとは思わないが、他に何も見つからなかったため、これらの予測間隔の設定方法がわからない。この方法は正しいですか? 使用するRがありません。自分でやる必要があります。

3
バイナリ時系列
バイナリタイムシリーズがあります。90日間で1時間のデータが2160(0 =発生しなかった、1 =発生した)です。 次の1が発生するこれらの90日後に予測し、このプロビジョニングを次の1か月間延長します。


2
共和分検定統計量が与えられた場合、共和分について何らかの結論を下すことができますか?
一般に、共和分検定統計ことを示すことができます。これはすべての共和分テストに当てはまると私は信じているので、使用される特定のテストはおそらく無関係です。A 、B ≠ B 、AA,B≠B,AA, B \ne B,A ただし、2つのテスト統計は一般に「近い」ことがわかりました。2つのテスト統計は同じ信頼水準になります。 私の作業では、共和分をテストする一般的な方法は、2つの系列(残差系列)の線形結合の単位根をテストすることです。一般的には、ADFテストを使用してそれを行い、結果のテスト統計を帰無仮説を棄却するために必要な信頼水準と比較します。 私の質問: との比較について言えることはありますか?c o i n t (B 、A )coint(A,B)coint(A,B)coint(A,B)coint(B,A)co私んt(B、あ)coint(B,A) 1つの変数の向きを他の向きよりも優先する説得力のある技術的な理由はありますか? 1または2に対する答えは、使用された共和分検定に固有ですか?もしそうなら、私が上で概説した共和分テスト方法論に特に関連するものはありますか? ありがとう。 編集: リクエストされたとおりの例です。私はほとんどの統計作業にPythonを使用しています。 最初の線形結合(AKA残留シリーズ)のためのADF検定統計量であり、-35.9199966497及び-35.7190914946第二の線形結合のために。 明らかにこれはかなり極端な例ですが、他にもたくさんあります。 グラフのプロットの順序: 残差シリーズ1 最適なライン、(x、y)方向の散布図。 残差シリーズ2 最適なライン、(y、x)方向の散布図。 2つの生の曲線のグラフ。 うまくいけば、これで問題が解決します。

1
Arimax予測:予測パッケージの使用
パッケージのarimax関数は、TSA私の知る限りR、介入モデルの伝達​​関数に適合する唯一のパッケージです。予測機能はありませんが、必要な場合があります。 優れたforecastパッケージを活用して、この問題の次の回避策はありますか?予測間隔は正しいですか?私の例では、コンポーネントのstdエラーは「近い」ものです。 予測パッケージのアリマ関数を使用して、介入前のノイズシリーズを決定し、外れ値の調整を追加します。 同じモデルをフィットarimaxさせますが、伝達関数を追加します 伝達関数のarimax近似値(からの係数)を取得し、それらをxreg inとして追加しますarima。 と予測 arima library(TSA) library(forecast) data(airmiles) air.m1<-arimax(log(airmiles),order=c(0,0,1), xtransf=data.frame(I911=1*(seq(airmiles)==69)), transfer=list(c(1,0)) ) air.m1 出力: Coefficients: ma1 intercept I911-AR1 I911-MA0 0.5197 17.5172 0.5521 -0.4937 s.e. 0.0798 0.0165 0.2273 0.1103 sigma^2 estimated as 0.01223: log likelihood=88.33 AIC=-168.65 AICc=-168.09 BIC=-155.02 これはフィルターであり、データより5期間延長されています tf<-filter(1*(seq(1:(length(airmiles)+5))==69),filter=0.5521330,method='recursive',side=1)*(-0.4936508) forecast.arima<-Arima(log(airmiles),order=c(0,0,1),xreg=tf[1:(length(tf)-5)]) forecast.arima 出力: Coefficients: ma1 intercept tf[1:(length(tf) - …

1
複数のARIMAモデルはデータによく適合します。順序を決定する方法は?正しいアプローチ?
2つの時系列(男性と女性のモデルのパラメーター)があり、予測を行うために適切なARIMAモデルを特定することを目指しています。私の時系列は次のようになります。 プロットとACFは非定常を示しています(ACFのスパイクは非常にゆっくりとカットオフします)。したがって、私は差分を使用して取得します: このプロットは、系列が静止している可能性があり、kpssテストとadfテストの適用がこの仮説をサポートしていることを示しています。 男性シリーズから始めて、以下の観察を行います。 ラグ1、4、5、26および27での経験的自己相関は、ゼロとは有意に異なります。 ACFはカットオフ(?)しますが、ラグ26と27での比較的大きなスパイクが心配です。 ラグ1と2での経験的部分自己相関のみが、ゼロと有意に異なります。 これらの観察のみに基づいて、差分時系列に純粋なARモデルまたはMAモデルを選択する必要がある場合、次のように主張してAR(2)モデルを選択する傾向があります。 ラグが2より大きい場合、部分的な自己相関はありません。 ACFは、27ラグ付近の領域を除いてカットオフします(これらの少数の外れ値だけが指標であり、混合ARMAモデルが適切であることを示しますか?) または以下のように主張することによりMA(1)モデル: PACFは明らかにカットオフ ラグには、マグニチュードの臨界値を超える1〜4のスパイクがあります。これは、点線領域の外にあることが許可されている3つのスパイク(60のうち95%)より1つ多い「唯一の」ものです。 ARIMA(1,1,1)モデルの特性はなく、p + q> 2のACFおよびPACFに基づいてARIMAモデルのpおよびqの次数を選択することは困難になります。 auto.arima()をAIC基準で使用すると(AICまたはAICCを使用する必要がありますか)、次の結果が得られます。 ドリフトのあるARIMA(2,1,1)。AIC = 280.2783 ドリフト付きARIMA(0,1,1)。AIC = 280.2784 ドリフト付きARIMA(2,1,0)。AIC = 281.437 検討した3つのモデルすべてがホワイトノイズの残差を示しています。 要約した質問は次のとおりです。 時系列のACFは、26ラグ前後の急上昇にもかかわらず、まだ切断されていると説明できますか? これらの外れ値は、混合ARMAモデルがより適切である可能性があることを示す指標ですか? どの情報基準を選択すればよいですか?AIC?AICC? AICが最も高い3つのモデルの残差はすべてホワイトノイズ動作を示しますが、AICの差はごくわずかです。パラメータが最も少ないもの、つまりARIMA(0,1,1)を使用する必要がありますか? 私の議論は一般的にもっともらしいですか? どちらのモデルが優れているかを判断する可能性はありますか?たとえば、AICが最も高い2つのモデルでバックテストを実行して予測の妥当性をテストする必要がありますか? 編集:ここに私のデータがあります: -5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370 0.5826312749 0.3869227286 …

3
まれなイベントの発生率を高めるための統計的検定
20年間にわたる希少疾患の発生率に関する2500人のシミュレーションデータを以下に示します year number_affected 1 0 2 0 3 1 4 0 5 0 6 0 7 1 8 0 9 1 10 0 11 1 12 0 13 0 14 1 15 1 16 0 17 1 18 0 19 2 20 1 病気がより一般的になっていることを示すためにどのような検査を適用できますか? 編集:@Wrzlprmftで提案されているように、SpearmanとKendallのメソッドを使用して簡単な相関を試みました: Spearman's rank correlation rho data: …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.