タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

2
Rを使用して時間の経過に伴う分布をプロットする良い方法は何ですか?
私は約400人の個人とそれぞれ> 1万回のタイムポイント(シミュレーション結果)を持っています。これらは時間の経過とともに変化するので、監視できるようにしたいと考えています。すべての個人をプロットするのは面倒であり、平均値+ -sd、最小/最大値、または変位値をプロットすることは、私の好みには情報が少なすぎます。このタイプのデータを視覚化するために他の人が思いついたのは、どういうことかと思います。データポイントが少ない場合は、各タイムポイントにbeanplotsを使用しますが、それはそれほど多くのタイムポイントでは機能しません。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
ベバリッジネルソン分解の説明
誰かがBeveridge-Nelson分解の仕組みを説明できますか?これまでのところ、私が知っているのは、非定常時系列データのトレンドサイクルを推定することだけです。 私は複数のジャーナルの記事を見ましたが、それがどのように機能するのかまだ混乱しています http://research.economics.unsw.edu.au/jmorley/bn.pdf

4
日付を含むデータの回帰
3年間で100か国以上で営業している3つのサプライヤーからの数百のトランザクションを含むデータセットがあります。 販売国は、達成される価格の重要な要素ではないことがわかりました(製品は多かれ少なかれグローバルな商品です)。時間の経過とともにすべての価格が大幅に下落しています。1日は、同じサプライヤー(つまり、異なる国)から異なる価格で複数のトランザクションを持つことができます。 さまざまなサプライヤーから請求される価格に統計的に有意な差があるかどうかをテストしたいと思います。 データは次のようになります。 Country X 1/1/2010 $200 Supplier A Country Y 1/1/2010 $209 Supplier A Country Z 1/1/2010 $187 Supplier A Country A 1/1/2010 $200 Supplier B Country X 1/2/2010 $188 Supplier B これを行う方法についてのアイデア?.....

3
MAの単位根の意味は何ですか?
ARMA(p、q)プロセスは、そのAR部分のルートが単位円上にない場合、弱く定常的です。したがって、その弱い定常性はMAの部分に依存しません。しかし、MA部分のルーツの位置は何を意味するのでしょうか。 ARIMAの単位根検定では、MA多項式の単位根は、データが過差分であることを示しています。それは、時系列の差が弱く静止していないことを意味しますか?はいの場合、それはARMAの弱い定常性がMAの部分に依存しないという以前の事実と矛盾しますか?

2
auto.arimaが季節パターンを認識しない
私は毎日の気象データセットを持っていますが、これは当然のことながら、非常に強い季節効果を持っています。 予測パッケージの関数auto.arimaを使用して、このデータセットにARIMAモデルを適合させました。驚いたことに、この関数は季節性操作、季節性差異、季節性arまたはmaコンポーネントを適用しません。推定したモデルは次のとおりです。 library(forecast) data<-ts(data,frequency=365) auto.arima(Berlin) Series: data ARIMA(3,0,1) with non-zero mean Coefficients: ar1 ar2 ar3 ma1 intercept 1.7722 -0.9166 0.1412 -0.8487 283.0378 s.e. 0.0260 0.0326 0.0177 0.0214 1.7990 sigma^2 estimated as 5.56: log likelihood=-8313.74 AIC=16639.49 AICc=16639.51 BIC=16676.7 また、このモデルを使用した予測は、本当に満足できるものではありません。これが予測のプロットです。 誰かが私にここで何が間違っているのかヒントを教えてくれますか?

1
相関の高い時系列の予測
AR、MA、ARMAなどのさまざまなモデルを使用した時系列予測では、通常、時間の変化におけるデータのモデリングに焦点を当てます。しかし、ピアソンの相関係数が高度に相関していることを示す2つの時系列がある場合、それらの依存関係と予測値をモデル化して他のモデルから予測することは可能ですか?たとえば、あるシリーズが他のシリーズと線形関係にある場合、それは可能であるように見えます。しかし、この種の依存関係分析の一般的な方法はありますか?

3
ユニットルートテストの結果をどのように解釈しますか?
プロジェクトに対していくつかのユニットルートテストを実行する必要があります。データの解釈方法がわからないだけです(これは私が要求されたものです)。 これが私の結果の1つです。 dfuller Demand Dickey-Fuller test for unit root Number of obs = 50 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------- Z(t) -1.987 -3.580 -2.930 -2.600 ------------------------------------------------------------------- MacKinnon approximate p-value for Z(t) = 0.2924 臨界値とp値の結果について何を言いますか?

2
tbatsモデルから予測サンプルパスをシミュレートする
Rob Hyndmanによる優れた予測パッケージを使用して、予測間隔を設けるだけでなく、複雑な季節性を持つ時系列の過去の観測を考慮して、将来のパスをシミュレートする必要性に遭遇しました。季節性が1つまたは2つしかない、それほど複雑ではない時系列用のものがあります(forecastパッケージのSimulate.ets())。ただし、私の場合、より複雑なtbatsモデルには、simulate.ets()と同等のものが必要になります。 そのようなパスを作成するために必要なデータは既にフィットオブジェクトに存在していると思いますが、サンプルパスを作成する可能性には直接アクセスできないようです。したがって、私は素朴な解決策を考え出し、このアプローチが正しいかどうかを知りたいと思います。 require(forecast) fit = bats(test,use.parallel=T,use.damped.trend=F,use.trend=T,seasonal.periods=seasonal.periods) 単純に、からのポイント予測を使用してサンプルパスを構築できると思います fit > forecast(fit) Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 1960.016 24.48576 23.82518 25.14633 23.47550 25.49602 1960.032 24.79870 23.88004 25.71735 23.39374 26.20366 1960.048 25.31743 24.39878 26.23608 23.91247 26.72239 1960.065 25.69254 24.77389 26.61120 24.28759 27.09750 1960.081 26.06863 25.14998 26.98729 24.66367 …

1
正の半定行列の平方根はユニークな結果ですか?
私は観測の 時系列を分散共分散構造とランダム系列に分解しようとしています。nnnvcvc\bf{\mathrm{v_c}}n×nn×nn \times n∑∑\sumvv\bf{\mathrm{v}} したがって、の自己相関関数から分散共分散行列を導出できます。これは、半正定値のテプリッツ行列になります。したがって、適切な行列を計算して、相関系列をランダムな信号に変換できます。 ∑∑\sumvcvc\bf{\mathrm{v_c}}∑−12∑−12\sum^{-\frac{1}{2}} v=∑−12vcv=∑−12vc\bf{\mathrm{v}} = \sum^{-\frac{1}{2}}\bf{\mathrm{v_c}} これは、MATLABのsqrt(m)関数を使用して実行できますが、分散共分散行列のコレスキー分解を検出し、これを使用して相関を誘導することもできます。ただし、sqrtm法とコレスキー法を使用したランダムシリーズの結果は異なります(ただし多少似ています)。 さまざまな行列の平方根を確認する方法を決定するためにいくつかのテキストを読み、固有値分解法などを調べてきました。特定の所定の条件下では一意のソリューションしかないことがわかりますが、これらの一意のソリューションはまだ多くのルーツの1つにすぎないと思いますか? 私の質問はこれです。ある特定の平方根が別の平方根よりも好ましいと主張する方法はありますか。そうでない場合、すべての可能な解を抽出して、すべての可能なランダム関数を取得できる方法はありますか?

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

2
Rを使用したARIMAの2つの季節期間
私は現在、これらの指示で時系列を予測するためにRを使用しています: X <- ts(datas, frequency=24) X.arima <- Arima(X, order=c(2,1,0), seasonal=c(1,1,1)) pred <- predict(X.arima, n.ahead=24) plot.ts(pred$pred) ご覧のとおり、1時間ごとにデータを取得し、24(1日)の季節期間を選択しました。 週の季節要素を含めるために、追加の季節期間を使用して予測を改善したい(季節の長さ7 * 24 = 168データ) これには何らかの方法がありますか?どうやってやるの? 更新: 私はこの(あなたの)ブログページを読みました。おそらく、外部のリグレッサを使用して2番目の季節期間をシミュレートできますか?

5
2Dデータの平滑化
データは、さまざまな時間に記録された光学スペクトル(周波数に対する光強度)で構成されています。ポイントは、x(時間)、y(周波数)の通常のグリッドで取得されました。特定の周波数での時間発展を分析するために(急上昇、続いて指数関数的減衰)、データに存在するノイズの一部を削除したいと思います。このノイズは、固定周波数の場合、ガウス分布のランダムとしてモデル化できます。ただし、一定の時間に、データは異なる種類のノイズを示し、大きなスプリアススパイクと高速振動(+ランダムガウスノイズ)を伴います。2つの軸に沿ったノイズは物理的な起源が異なるため、相関関係がないはずです。 データを平滑化するための合理的な手順は何ですか?目標は、データを歪めることではなく、「明白な」ノイズの多いアーティファクトを削除することです。(そして、過度のスムージングは​​調整/定量化できますか?)1つの方向に沿って他の方向から独立してスムージングすることが意味があるのか​​、それとも2Dでスムージングする方が良いのかわかりません。 2Dカーネル密度推定、2D多項式/スプライン補間などについて読みましたが、専門用語や基礎となる統計理論に精通していません。 私はRを使用していますが、関連しているように見える多くのパッケージ(MASS(kde2)、フィールド(smooth.2d)など)が表示されますが、どの手法を適用するかについてのアドバイスはここでは見つかりません。 あなたが私を指摘する特定の参照があれば、私はもっと学ぶことができて嬉しいです(MASSは良い本だと思いますが、おそらく非統計家には技術的すぎるかもしれません)。 編集:データを表すダミーのスペクトログラムは、時間と波長の次元に沿ったスライスです。 ここでの実際的な目標は、各波長(またはノイズが多すぎる場合はビン)の指数関数的減衰率を時間で評価することです。

2
Rのニューラルネットワークを使用した時系列予測の例
誰もnnetが予測のためにニューラルネットワーク(Rなど)を使用する簡単な短い教育例を持っていますか? これは時系列のRの例です T <- seq(0,20,length=200) Y <- 1 + 3*cos(4*T+2) +.2*T^2 + rnorm(200) plot(T,Y,type="l") これはほんの一例ですが、私が持っているのは、季節変動の激しいデータです。

2
時系列データをどのように変換すれば、故障予測に簡単な手法を使用できますか?
これは主に統計サイトであることを知っているので、トピックから外れている場合はリダイレクトしてください。 ポンプが故障して交換が必要になるシステムがあります。故障を予測して、ポンプを交換する人に早期に警​​告したい。流量、圧力、液体の高さなど、ポンププロセスの履歴データがあります。 私は機械学習技術を使用してデータを分類する経験が少ししかありません-基本的に、コースラでのAndrew Ngの機械学習コースとAndrew ConwayのStatistics Oneの演習を行い、実行しました-私は機械学習を使用したことがありません時系列を分類します。既存の知識を活用できるように問題を変革する方法を考えています。知識が限られているため、最適な予測は得られませんが、これから学びたいと思っています。この問題では、障害が発生するのを待つだけでなく、予測を少し改善するだけでも役に立ちます。 私が提案するアプローチは、時系列を通常の分類問題に変えることです。入力は、ウィンドウ内の各タイプのデータの平均値、標準偏差、最大値などを含む、時系列ウィンドウの要約になります。出力については、何が最適かわかりません。1つのアプローチは、出力がウィンドウの終わりから特定の期間内にポンプが故障したかどうかのバイナリ分類になるというものです。もう1つは、出力がポンプが故障するまでの残り時間であるため、分類ではなく、回帰(機械学習の意味)です。 このアプローチは結果を生む可能性が高いと思いますか?それは「ドメインと履歴データに依存する」という問題ですか。私が考慮していない(入力と出力の両方の)より優れた変換はありますか、または時系列データに基づく障害予測は、より標準的な障害予測とは異なり、時系列で機械学習を読むことに時間を費やすのに適していますか? ?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.