タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

6
短い時系列に最適な方法
短い時系列のモデリングに関連する質問があります。それらをモデル化するかどうかは問題ではなく、どのようにモデル化するかです。(非常に)短い時系列(長さ)をモデル化するには、どのような方法をお勧めしますか?「最高」とは、ここでは最も堅牢なものを意味します。つまり、観測数が限られているという事実によるエラーが最も起こりにくいものです。短いシリーズでは、単一の観測が予測に影響を与える可能性があるため、この方法は、予測に関連するエラーと可能性のある変動の慎重な推定値を提供する必要があります。私は一般に単変量時系列に興味がありますが、他の方法について知ることも興味深いでしょう。T≤20T≤20T \leq 20

5
自己相関のテスト:Ljung-Box対Breusch-Godfrey
生データまたはモデル残差の自己相関をテストするために非常に頻繁に使用されるLjung-Boxテストを見るのに慣れています。自己相関のための別のテスト、つまりBreusch-Godfreyテストがあることを忘れていました。 質問: Ljung-BoxとBreusch-Godfreyのテストの主な違いと類似点は何ですか? (参考文献は歓迎されている。どういうわけか、私はどの見つけることができませんでした比較私はの説明を見つけることができた。私は、いくつかの教科書に見て、材料をオンラインで検索が二つの試験のを個別に各テストを、しかし、私は、ISに興味を持っています2つの比較。)

1
Rのtsoutliersパッケージを使用した時系列(LS / AO / TC)の外れ値の検出。方程式形式で外れ値を表す方法
コメント: まず、1993年にオープンソースソフトウェア Journal of the American Statistical Associationに発表されたChenとLiuの時系列外れ値検出を実装する新しいtsoutliersパッケージの作成者に感謝します。RRR このパッケージは、時系列データで5種類の外れ値を繰り返し検出します。 加算的外れ値(AO) イノベーションの外れ値(IO) レベルシフト(LS) 一時的な変更(TC) 季節的レベルシフト(SLS) さらに素晴らしいのは、このパッケージが予測パッケージからauto.arimaを実装しているため、異常値の検出がシームレスに行われることです。また、このパッケージは、時系列データをよりよく理解するためのすてきなプロットを生成します。 以下は私の質問です。 このパッケージを使用していくつかの例を実行してみましたが、うまくいきました。加算的な外れ値とレベルシフトは直感的です。ただし、一時的な変更の外れ値とイノベーションの外れ値の処理に関して、理解できない2つの質問がありました。 一時的な変更の外れ値の例: 次の例を考えてみましょう。 library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) プログラムは、次の場所でレベルシフトと一時的な変更を正しく検出します。 Outliers: type ind time coefhat tstat 1 LS 12 1935 37.14 3.153 2 TC 20 1943 36.38 3.350 以下はプロットと私の質問です。 方程式の形式で一時的な変更を書き込む方法は?(レベルシフトは、1935 …


4
データには2つの傾向があります。独立したトレンドラインを抽出する方法は?
特定の方法で順序付けられていないデータのセットがありますが、明確にプロットすると2つの明確な傾向があります。ここでは、2つのシリーズが明確に区別されているため、単純な線形回帰は適切ではありません。2つの独立した線形トレンドラインを取得する簡単な方法はありますか? 記録のために、私はPythonを使用しており、機械学習を含むプログラミングとデータ分析にかなり満足していますが、絶対に必要な場合はRに飛び乗ります。

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
RでARIMAXモデルを適合させる方法は?
毎時測定の4つの異なる時系列があります。 家の中の熱消費 家の外の温度 日射 風速 家の中の熱消費量を予測できるようにしたい。年間および日単位の両方で、明確な季節的傾向があります。異なるシリーズの間には明確な相関関係があるため、ARIMAXモデルを使用してそれらを近似します。これは、パッケージTSAの関数arimaxを使用して、Rで実行できます。 私はこの関数に関するドキュメントを読み、伝達関数を読み込もうとしましたが、これまでのところ、私のコードは: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) 私に与えます: ここで、黒い線は実際の測定データであり、緑の線は私の比較モデルです。それは良いモデルではないだけでなく、明らかに何かが間違っています。 ARIMAXモデルと伝達関数に関する知識が限られていることを認めます。関数arimax()では(理解している限り)、xtransfは(伝達関数を使用して)メインの時系列を予測するために使用する外因性の時系列です。しかし、実際にはxregとxtransfの違いは何ですか? より一般的には、私が間違ったことは何ですか?lm(heat〜temp radi wind * time)から得られるものよりも良いフィット感を得ることができるようにしたいと思います。 編集: コメントのいくつかに基づいて、転送を削除し、代わりにxregを追加しました。 regParams = ts.union(ts(dayy), ts(temp), ts(time)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams) ここで、dayyは「年間通算日」であり、timeはその日の時間です。温度は再び外の温度です。これにより、次の結果が得られます。 それは良いですが、私が期待していたものとはほぼ異なります。

2
時系列データを使用したブートストラップはどのように行いますか?
最近、ブートストラップ手法を使用して、推定量の標準誤差と信頼区間を計算することを学びました。私が学んだことは、データがIIDである場合、サンプルデータを母集団として扱い、置換を使用してサンプリングを行うことができ、これにより検定統計量の複数のシミュレーションを取得できることです。 時系列の場合、自己相関が存在する可能性が高いため、明らかにこれを行うことはできません。時系列があり、固定日付の前後のデータの平均を計算したいと思います。修正版のブートストラップを使用してこれを行う正しい方法はありますか?

1
時間的ネットワークでのリンク異常検出
リンク異常検出を使用してトレンドのトピックを予測するこの論文に出会いましたが、非常に興味深いことがわかりました。この論文は、「リンク異常検出によるソーシャルストリームの新興トピックの発見」です。 別のデータセットに複製したいのですが、それらの使用方法を知るための方法に十分な知識がありません。6か月の間にノードのネットワークの一連のスナップショットがあるとします。ノードには、次数の長い分布があり、ほとんどはわずかな接続しかありませんが、一部は非常に多くの接続を持ちます。この期間内に新しいノードが表示されます。 バーストの前兆と思われる異常なリンクを検出するために、論文で使用されている逐次割引正規化最尤計算をどのように実装できますか?より適切な他の方法はありますか? 理論的にも実際的にもお願いします。誰かがこれをPythonまたはRで実装する方法を教えてくれたら、それは非常に役立ちます。 誰でも?私はあなたが賢明な人々が答えのためのいくつかの最初の考えを持っていることを知っています、


9
なぜベクトル誤差補正モデルを使用するのですか?
Vector Error Correction Model(VECM)について混乱しています。 技術的背景: VECMは、統合された多変量時系列にベクトル自己回帰モデル(VAR)を適用する可能性を提供します。教科書では、VARを統合時系列に適用する際にいくつかの問題を挙げていますが、その中で最も重要なのは、いわゆるスプリアス回帰です(t統計は非常に重要であり、変数間に関係はありませんがR ^ 2が高い)。 VECMを推定するプロセスは、おおよそ次の3つのステップで構成されていますが、混乱を招く1つは最初のステップです。 統合された多変量時系列のVARモデルの仕様と推定 尤度比検定を計算して、共和分関係の数を決定します 共和分数を決定した後、VECMを推定します 最初のステップでは、適切な数のラグを使用してVARモデルを推定し(通常の適合度基準を使用)、残差がモデルの仮定に対応しているかどうか、つまり、シリアル相関と不均一分散がなく、残差が正規分布していることを確認します。そのため、VARモデルが多変量時系列を適切に記述しているかどうかを確認し、記述している場合にのみ次のステップに進みます。 そして今私の質問に:VARモデルがデータをうまく記述しているのなら、なぜVECMが必要なのですか?私の目標が予測を生成することである場合、VARを推定して仮定をチェックするだけでは十分ではありませんか?また、それらが満たされている場合は、このモデルを使用しますか?

3
時系列が定常か非定常かを知る方法は?
私はRを使用しています、私はGoogleで検索していることを学んだkpss.test()、PP.test()とadf.test()時系列の定常性について知るために使用されています。 しかし、私は彼らの結果を解釈できる統計学者ではありません > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning message: In kpss.test(b$V1) : p-value greater than …

7
時系列分析のポイントは何ですか?
時系列分析のポイントは何ですか? 回帰や機械学習など、明らかなユースケースを持つ統計方法は他にもたくさんあります。回帰は2つの変数間の関係に関する情報を提供しますが、機械学習は予測に最適です。 しかしその間、私は時系列分析が何のために良いかわかりません。確かに、ARIMAモデルを当てはめて予測に使用できますが、その予測の信頼区間が大きくなるとしたら何が良いでしょうか?世界史上最もデータ主導型の業界であるにもかかわらず、誰も株式市場を予測できない理由があります。 同様に、プロセスをさらに理解するためにどのように使用しますか?確かに、ACFをプロットして、「あぁ!依存関係があります!」と言うことができますが、その後はどうでしょうか。ポイントは何ですか?もちろん、依存関係があります。そのため、そもそも時系列分析を行っています。あなたはすでに依存があることを知っていました。しかし、あなたは何のためにそれを使用するつもりですか?

4
記録されたエラーの急増をアルゴリズムで識別する簡単な方法
早期警告システムが必要です。負荷がかかるとパフォーマンスの問題が発生することがわかっているサーバーを扱っています。エラーは、タイムスタンプとともにデータベースに記録されます。サーバーの負荷を軽減するために実行できる手動介入手順がいくつかありますが、誰かが問題を認識している場合のみです... エラーが発生した一連の時間を考えると、エラーの急増の始まりを(リアルタイムで)どうやって特定できますか?定期的に、またはエラーが発生するたびに計算できます。 偶発的なエラーについては気にしませんが、特定のしきい値はありません。たとえば、5分間で3つのエラーが発生したときはいつでも誰かに通知できますが、もっと良い方法があるはずです... sysadminsからのフィードバックに基づいてアルゴリズムの感度を調整できるようにしたいと思います。現時点では、ある程度の誤検知が予想されることはわかっていますが、彼らはかなり敏感であることを望んでいます。 私は統計学者ではありませんが、これは明らかであり、既存のツールであるSQL Serverと旧式のASP JScriptを使用してこれを実装するのは比較的簡単である必要があります。コードで答えを探しているわけではありませんが、追加のソフトウェアが必要な場合、おそらく機能しません(ただし、非現実的で理想的なソリューションをコメントとして歓迎しますが、私自身の好奇心のためです)。

2
正則化またはペナルティ化によるARIMAXモデルの適合(たとえば、なげなわ、エラスティックネット、またはリッジ回帰)
予測パッケージのauto.arima()関数を使用して、ARMAXモデルをさまざまな共変量に適合させます。ただし、選択する変数は多数あることが多く、通常はそれらのサブセットで機能する最終モデルになります。私は人間であり、バイアスの影響を受けるため、変数選択のアドホックな手法は好きではありませんが、時系列の相互検証は難しいので、利用可能な変数のさまざまなサブセットを自動的に試す良い方法が見つかりませんでした。自分の最高の判断力を使ってモデルを調整するのにこだわっています。 glmモデルを適合させると、glmnetパッケージを介して、正則化と変数選択にエラスティックネットまたは投げ縄を使用できます。ARMAXモデルでエラスティックネットを使用するための既存のツールキットがRにありますか、それとも自分でロールバックする必要がありますか?これは良いアイデアですか? 編集:ARとMAの項(例えばAR5とMA5まで)を手動で計算し、glmnetを使用してモデルに適合させるのは理にかなっていますか? 編集2:FitARパッケージは、そのすべてではなく一部を私に与えているようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.