タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

7
一般的な時系列の期間検出
この投稿は時系列の外れ値検出のための一般的な方法に関連する別の投稿の続きです。基本的に、この時点で、多くのノイズの影響を受ける一般的な時系列の周期性/季節性を発見するための堅牢な方法に興味があります。開発者の観点から、次のようなシンプルなインターフェースが欲しいです。 unsigned int discover_period(vector<double> v); vサンプルを含む配列はどこにあり、戻り値は信号の周期です。主なポイントは、やはり、分析された信号に関して仮定を立てることができないということです。信号の自己相関に基づいたアプローチ(コレログラムのピークの検出)を既に試しましたが、希望どおりに堅牢ではありません。

3
「残念な賛成票」の問題はありますか?
これは話題から外れているように聞こえるかもしれませんが、聞いてください。 スタックオーバーフローでは、ここで投稿に対する投票を得ます。これはすべて表形式で保存されます。 例えば: 投稿ID投票者ID投票タイプ日時 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等々。投票タイプ2は投票、投票タイプ3は投票です。このデータの匿名バージョンをhttp://data.stackexchange.comで照会できます 投稿のスコアが-1以下になると、投稿される可能性が高くなるという認識があります。これは単に確認バイアスである場合もあれば、実際に根付いている場合もあります。 この仮説を確認または否定するために、このデータをどのように分析しますか?このバイアスの影響をどのように測定しますか?

3
曲線形状に基づいて時系列クラスタリングを行うことは可能ですか?
一連のアウトレットの販売データがあり、時間の経過に伴うカーブの形状に基づいてそれらを分類したいと考えています。データはおおよそ次のように見えます(ただし、明らかにランダムではなく、データが欠落しています)。 n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …

3
時系列でピアソン相関を正しく使用する方法
2つの時系列(両方とも滑らか)があるので、相互相関を調べて、それらの相関関係を確認します。 ピアソン相関係数を使用するつもりです。これは適切ですか? 2番目の質問は、2つの時系列を好きなようにサンプリングできることです。つまり、データポイントの数を選択できます。これは、出力される相関係数に影響しますか?これを説明する必要がありますか? 説明のため option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

8
時系列分析の落とし穴
時系列分析で自己学習を始めたばかりです。一般的な統計には当てはまらない潜在的な落とし穴がいくつかあることに気付きました。それで、一般的な統計的罪とは何ですか?、 私は質問したい: 時系列分析における一般的な落とし穴または統計的な罪とは何ですか? これは、コミュニティWikiであり、回答ごとに1つの概念があります。一般的な統計上の罪とは何ですか?

8
不規則な間隔の時系列をモデル化するためのゴールドスタンダードはありますか?
経済学の分野(私は思う)には、等間隔の時系列用のARIMAとGARCHと、ポイントプロセスのモデリング用のPoisson、Hawkesがあります。 ? (このトピックに関する知識がある場合は、対応するwiki記事も展開できます。) エディション(欠損値と不規則な間隔の時系列について): @Lucas Reisのコメントに答えてください。測定または実現変数間のギャップが(たとえば)ポアソンプロセスのために間隔が空いている場合、この種の正則化の余地はあまりありませんt(i)が、単純な手順が存在します:変数xのi番目の時間インデックス(実現X)、次いで、測定の時間の間のギャップを定義g(i)=t(i)-t(i-1)し、我々は、離散化、g(i)定数を使用しc、dg(i)=floor(g(i)/cそして元の時系列から古い観測値との間のブランク値の数と新しい時系列を作成iし、i+1()IをDGに等しいが、問題は、このことですプロシージャは、観測数よりはるかに多くの欠損データを含む時系列を容易に生成できるため、欠損観測値の合理的な推定は不可能であり、大きすぎる可能性があります。c「時間構造/時間依存など」を削除する 分析された問題の(極端なケースは、c>=max(floor(g(i)/c))不規則な間隔の時系列を規則的に間隔を空けて単純に崩壊させることにより与えられる Edition2(楽しみのためだけ):不規則な間隔の時系列の欠損値またはポイント処理の場合の画像アカウンティング。

6
時系列分類の機能
可変長時系列に基づく(マルチクラス)分類の問題、つまり、関数 、に依存しない固定サイズ の選択された特徴セットによるタイムセリエのグローバル表現、 そしてこの機能セットで標準の分類方法を使用します。 予測、つまり予測に興味がないF (X T)= Y ∈ [ 1 .. K ]TTTV I D T φ (X T)= V 1、... 、vのD ∈ R、xはT + 1f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, …

4
2つの時系列を統計的に比較する方法は?
次のプロットに示す2つの時系列があります。 プロットは両方の時系列の完全な詳細を示していますが、必要に応じて、同時観測に簡単に縮小できます。 私の質問は、時系列の違いを評価するためにどのような統計的方法を使用できますか? これはかなり広範で曖昧な質問であることは知っていますが、これに関する入門的な資料はどこにも見当たらないようです。私が見ることができるように、評価する2つの明確なものがあります: 1.値は同じですか? 2.トレンドは同じですか? これらの質問を評価するために、どのような統計テストを検討することをお勧めしますか?質問1については、明らかに異なるデータセットの平均を評価し、分布の重要な違いを探すことができますが、データの時系列の性質を考慮してこれを行う方法はありますか? 質問2-2つの傾向の類似性を調べるMann-Kendallテストのようなものはありますか?両方のデータセットに対してMann-Kendallテストを実行して比較することはできますが、それが物事を行うための有効な方法であるかどうか、またはより良い方法があるかどうかはわかりませんか? 私はこれをすべてRで行っているので、あなたが提案するテストがRパッケージを持っているなら、私に知らせてください。
43 r  time-series 

2
MA(q)時系列モデルが「移動平均」と呼ばれるのはなぜですか?
時系列に関連して「移動平均」を読むと、、またはおそらく重み付きような平均。(これらは実際にはAR(3)モデルですが、これらは私の脳のジャンプ先です。)なぜMA(q)モデルはエラー用語、つまり「革新」の式なのですか?何ん移動平均としなければなりませんか?明らかな直観が欠けているように感じます。 0.5xt−1+0.3xt−2+0.2xt−3{ϵ}(xt − 1+ xt − 2+ xt − 3)3(バツt−1+バツt−2+バツt−3)3\frac{(x_{t-1} + x_{t-2} + x_{t-3})}30.5 xt − 1+ 0.3 xt − 2+ 0.2 xt − 30.5バツt−1+0.3バツt−2+0.2バツt−30.5x_{t-1} + 0.3x_{t-2} + 0.2x_{t-3}{ ϵ }{ϵ}\{\epsilon\}

5
時系列を静止させる方法は?
違いをとる以外に、非定常時系列を静止にする他の手法は何ですか? 通常、ラグ演算子介して静止させることができる場合、シリーズは「オーダーpの積分」と呼ばれます。(1−L)PXt(1−L)PXt(1-L)^P X_t

5
動的タイムワーピングクラスタリング
動的タイムワーピング(DTW)を使用して時系列のクラスタリングを実行する方法は何ですか? DTWを2つの時系列間の類似性を見つける方法として読みましたが、それらは時間的にシフトする可能性があります。この方法を、k-meansのようなクラスタリングアルゴリズムの類似性尺度として使用できますか?

5
Rの時系列「クラスタリング」
時系列データのセットがあります。各シリーズは同じ期間をカバーしますが、各時系列の実際の日付がすべて正確に「揃っている」わけではありません。 つまり、時系列が2Dマトリックスに読み込まれる場合、次のようになります。 date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 時系列{T1、T2、... TN}を「家族」に分離するRスクリプトを記述します。ここで、家族とは、「共感して移動する傾向がある」一連のシリーズとして定義されます。 「クラスタリング」の部分では、一種の距離測定を選択/定義する必要があります。私は時系列を扱っているため、これをどのように行えばよいのかよくわかりません。1つの間隔で同情的に移動する可能性のある一連のシリーズは、後続の間隔ではそうなりません。 ここにいるよりもはるかに経験豊富で賢い人がいると確信しているので、距離測定に使用するアルゴリズム/ヒューリスティックに関する提案、アイデア、および時系列のクラスタリングでそれを使用する方法に関するアイデアに感謝します。 私の推測では、これを行うための確固たる統計的方法は確立されていないので、統計学者のように考えて、人々がこの問題にどのようにアプローチ/解決するのか非常に興味があります。

2
Rの半正弦波モデルに適したものを見つける方法は?
バルト海の海面温度は毎年同じであると仮定し、関数/線形モデルで説明します。私が考えていたのは、年を10進数(またはnum_months / 12)として入力し、その時間についての温度を取得することでした。Rのlm()関数にそれを投げると、正弦データを認識しないため、直線を生成します。そこで、sin()関数をI()ブラケットに入れて、いくつかの値を試して関数を手動でフィットさせました。しかし、海は夏には早く暖まり、秋にはゆっくりと冷却します...ですから、最初の年はモデルが間違っていて、数年後にはより正確になり、将来的にはより多くなると思いますそしてさらに間違っています。 モデルを推定するためにRを取得するにはどうすればよいですか?したがって、自分で数値を推測する必要はありませんか?ここで重要なのは、1年間だけでなく、毎年同じ値を生成することです。数学についてもっと知っていれば、sin()の代わりにポアソンやガウスのようなものと推測できるかもしれませんが、その方法もわかりません。良い答えに近づくための助けをいただければ幸いです。 ここに私が使用するデータと、これまでの結果を表示するコードを示します。 # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 

4
予測と予測の違いは?
予測と予測の間にはどのような違いと関係があるのだろうか?特に時系列と回帰で? たとえば、私はそれを修正していますか: 時系列では、予測とは、時系列の過去の値から将来の値を推定することを意味するようです。 回帰では、予測は、与えられたデータに対して将来、現在、または過去の値を推定することを意味するようです。 よろしくお願いします!

5
時系列分析の相互検証
R のキャレットパッケージを使用して、分類と回帰の予測モデルを構築しています。Caretは、クロス検証またはブートストラッピングによってモデルハイパーパラメーターを調整するための統一されたインターフェイスを提供します。たとえば、分類のために単純な「最近傍」モデルを構築している場合、いくつの近傍を使用する必要がありますか?2?10?100?Caretは、データを再サンプリングし、さまざまなパラメーターを試し、結果を集計して、どれが最良の予測精度をもたらすかを決定することにより、この質問に答えるのに役立ちます。 モデルハイパーパラメーターを選択するための堅牢な方法論を提供し、最終ハイパーパラメーターを選択すると、分類モデルの精度を使用して、モデルがどれだけ「良い」かを相互検証した推定値を提供するため、このアプローチが好きですおよび回帰モデルのRMSE。 おそらくランダムフォレストを使用して、回帰モデルを構築したい時系列データがいくつかあります。データの性質を考慮して、モデルの予測精度を評価するための優れた手法は何ですか?ランダムフォレストが実際に時系列データに適用されない場合、時系列分析用の正確なアンサンブルモデルを構築する最良の方法は何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.