タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

1
時系列予測のためのランダムフォレスト回帰
私は、製紙工場のパフォーマンスを予測するためにRF回帰を利用しようとしています。 私は、入力(木材パルプの速度と量など)と、マシンのパフォーマンス(生成された紙、マシンによって消費された電力)に関する分単位のデータを持ち、10分間の予測を求めています。パフォーマンス変数の先に。 12か月分のデータがあるので、トレーニングセット用に11か月、テスト用に最終月に分けました。 これまでに、パフォーマンス変数ごとに値が1〜10分遅れている10個の新しい機能を作成し、これらの機能と入力を使用して予測を行いました。テストセットのパフォーマンスは非常に良好です(システムはかなり予測可能です)が、アプローチに何か不足しているのではないかと心配しています。 たとえば、このペーパーでは、ランダムフォレストモデルの予測能力をテストする際のアプローチを次のように述べています。 シミュレーションは、新しい週のデータを繰り返し追加し、更新されたデータに基づいて新しいモデルをトレーニングし、翌週の大規模感染の数を予測することで続行されます。 これは、時系列の「後の」データをテストとして利用することとどう違うのですか?このアプローチとテストデータセットでRF回帰モデルを検証する必要がありますか?さらに、ランダムフォレスト回帰に対するこの種の「自己回帰」アプローチは時系列に有効ですか?将来10分の予測に興味がある場合、これだけ多くの遅延変数を作成する必要がありますか?

1
RでのARIMA時系列の予測値のプロット
この質問には2つ以上の深刻な誤解がある可能性がありますが、それは計算を正しくすることを意味するのではなく、いくつかの焦点を考慮して時系列の学習を動機付けることを目的としています。 時系列の適用を理解しようとすると、データのトレンドを排除すると、将来の値を予測するのが不可能になるように見えます。たとえばgtemp、astsaパッケージの時系列は次のようになります。 過去数十年間の上昇傾向は、予測される将来の値をプロットするときに考慮に入れる必要があります。 ただし、時系列変動を評価するには、データを定常時系列に変換する必要があります。私は(私はこれが原因で途中で実行されると思い差分とARIMAプロセスとしてモデル化した場合1でorder = c(-, 1, -)のように): require(tseries); require(astsa) fit = arima(gtemp, order = c(4, 1, 1)) 次に、将来の値(年)を予測しようとすると、上昇傾向のコンポーネントが見落とされます。505050 pred = predict(fit, n.ahead = 50) ts.plot(gtemp, pred$pred, lty = c(1,3), col=c(5,2)) 特定のARIMAパラメータの実際の最適化に必ずしも触れず に、プロットの予測された部分の上昇傾向をどのように回復できますか? この非定常性を説明するOLSがどこかに「隠されている」と思われますか? 私は、パッケージdriftのArima()機能に組み込むことができるの概念にforecast出会い、もっともらしいプロットをレンダリングします。 par(mfrow = c(1,2)) fit1 = Arima(gtemp, order = c(4,1,1), include.drift = T) future = forecast(fit1, …

1
周期的データに適合する周期的スプライン
この質問へのコメントで、ユーザー@whuberは、定期的なデータに適合するために定期的なバージョンのスプラインを使用する可能性を挙げました。この方法、特にスプラインを定義する方程式、および実際にそれらを実装する方法について詳しく知りたいです(私はほとんどがRユーザーですが、必要に応じて、MATLABまたはPythonを使用して実行できます)。また、これは「便利」ですが、三角多項式フィッティングに関して考えられる長所/短所について知ることは素晴らしいことです。これは、通常、この種のデータを処理する方法です(応答が非常に滑らかでない場合を除きます)。その場合、定期的なカーネルでガウスプロセスに切り替えます)。

2
粒子フィルターを理解するための数学的および統計的前提条件?
私は現在、粒子フィルターとそれらの財務での可能な使用法を理解しようとしており、私はかなり苦労しています。(i)パーティクルフィルターの基本にアクセスできるようにするため、および(ii)後でそれらを完全に理解するために、私が再検討する必要がある数学的および統計的な前提条件(定量的ファイナンスの背景から)は何ですか?私はまだカバーしていない状態空間モデルを除いて、大学院レベルの時系列計量経済学に関する確かな知識を持っています。 ヒントは大歓迎です!

1
自己相関バイナリ時系列のモデリング
バイナリ時系列をモデル化するための通常のアプローチは何ですか?これを扱った紙や教科書はありますか?強い自己相関を持つバイナリプロセスについて考えます。ゼロから始まるAR(1)プロセスの記号のようなもの。セイと ホワイトノイズの。次に、定義され たバイナリ時系列 が自己相関を示します。これは、次のコードで説明します。バツ0= 0X0=0X_0 = 0バツt + 1= β1バツt+ ϵt、Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, εtϵt\epsilon_t(Yt)T ≥ 0(Yt)t≥0(Y_t)_{t \ge 0}Yt= 記号(Xt)Yt=符号(バツt) Y_t = \text{sign}(X_t) set.seed(1) X = rep(0,100) beta = 0.9 sigma = 0.1 for(i in 1:(length(X)-1)){ X[i+1] =beta*X[i] + rnorm(1,sd=sigma) } acf(X) acf(sign(X)) バイナリデータを取得し、重要な自己相関があることがわかっている場合、テキストブック/通常のモデリングアプローチとは何ですか?YtYtY_t 外部のリグレッサや季節的なダミーの場合、ロジスティック回帰を実行できると思いました。しかし、純粋な時系列アプローチとは何ですか? 編集:正確に言うと、sign(X)が最大4つのラグに対して自己相関していると仮定しましょう。これは次数4のマルコフモデルであり、それでフィッティングおよび予測できますか? 編集2:その間、私は時系列のグラムを偶然見つけました。これらは、説明変数が遅れた観測と外部リグレッサであるglmsです。ただし、これはポアソンおよび負の二項分布カウントに対して行われるようです。ポアソン分布を使用してベルヌーイを近似できます。これに対する明確な教科書的アプローチはないのでしょうか。 …

3
2つの類似した時系列がいつ分岐し始めるかを検証する統計的テスト
タイトルから、2つの類似した時系列間の有意差を特定するのに役立つ統計的検定が存在するかどうかを知りたいと思います。具体的には、下の図を見て、系列が時間t1で分岐し始めたこと、つまり、系列間の差が大きくなり始めたことを検出したいと思います。さらに、シリーズ間の差が有意でない場合も検出します。 これを行うのに役立つ統計的検定はありますか?

2
主成分分析は株価/非定常データに使用できますか?
私は「ハッカーのための機械学習」という本の例を読んでいます。最初に例について詳しく説明し、次に私の質問について話します。 例: 25株価の10年間のデータセットを取得します。25の株価でPCAを実行します。主成分をダウジョーンズインデックスと比較します。PCとDJIの非常に強い類似性を観察します! 私が理解していることから、この例は、私のような初心者がPCAのツールがいかに効果的であるかを理解するのに役立つおもちゃのようなものです! しかし、別のソースから読むと、株価は非定常であり、株価でPCAを実行することは不合理であることがわかります。私が読んだソースは、株価の共分散とPCAを計算するという考えを完全にばかげています。 質問: この例はどのようにうまく機能しましたか?株価のPCAとDJIは非常に近いものでした。そしてデータは2002-2011年の株価からの実際のデータです。 誰かが静止/非定常データを読み取るための素晴らしいリソースを私に指摘できますか?私はプログラマーです。数学の知識が豊富です。しかし、私は3年間真剣な数学をしていません。ランダムウォークなどについてまた読み始めました。

2
自己相関をテストする代わりに、なぜダービンワトソンを使用するのですか?
Durbin-Watson検定は、ラグ1での残差の自己相関をテストしますが、ラグ1での自己相関を直接テストします。さらに、ラグ2、3、4で自己相関をテストできます。複数のラグでの自己相関の適切なポートマンテストがあり、見やすく、簡単に解釈できるグラフ[Rのacf()関数など]を取得できます。ダービン・ワトソンは理解するのが直感的ではなく、しばしば決定的な結果を生み出しません。では、なぜそれを使用するのでしょうか。 これは、ダービン・ワトソン検定の決定性に関するこの質問に触発されましたが、それとは明らかに異なります。

1
短期的な効果と長期的な効果を区別する
私は論文で次の文を読みました: 短期係数と長期係数の間に差があるという事実は、遅れた内生変数を含む仕様の結果です。 彼らは最初の違いで回帰を実行し、従属変数のラグを含みます。 今、彼らは、あなたが出力から推定を見るならば(例えば、この推定をと呼ぶことができるなら)、従属変数に対するpの短期的な影響であると主張します。 さらに、p /(1-ラグの推定)を見ると、従属変数に対するpの長期的な影響が得られると彼らは主張しています。ppppppppp この論文は、https://www.ecb.europa.eu/pub/pdf/scpwps/ecbwp1328.pdfと、脚注23の20ページにある短期/長期の影響についての彼らの議論を見つけることができます。 従属変数に対する短期効果と長期効果を区別できる理由が正確にわかりません。誰かが彼らの考えをより詳細に説明できれば、それは非常に役に立ちます。ppp

1
Rの「前の状態」が「後の状態」に影響を与えるかどうかをテストする方法
状況を想像してみてください。3つの鉱山の歴史的な記録(20年)があります。銀の存在は来年金を見つける確率を高めますか?そのような質問をテストする方法は? 以下はデータの例です。 mine_A <- c("silver","rock","gold","gold","gold","gold","gold", "rock","rock","rock","rock","silver","rock","rock", "rock","rock","rock","silver","rock","rock") mine_B <- c("rock","rock","rock","rock","silver","rock","rock", "silver","gold","gold","gold","gold","gold","rock", "silver","rock","rock","rock","rock","rock") mine_C <- c("rock","rock","silver","rock","rock","rock","rock", "rock","silver","rock","rock","rock","rock","silver", "gold","gold","gold","gold","gold","gold") time <- seq(from = 1, to = 20, by = 1)

2
ARCHモデルとGARCHモデルが機能するデータを見つけた人はいますか?
私は金融および保険分野のアナリストであり、ボラティリティモデルを適合させようとするたびに、ひどい結果が得られます。残差は、多くの場合、非定常(単位根の意味で)であり、不均一(モデルがボラティリティを説明しない)です。 ARCH / GARCHモデルは他の種類のデータで動作しますか? いくつかのポイントを明確にするために、2015年4月17日15:07に編集されました。

1
異なる頻度の回帰
単純な回帰を実行しようとしていますが、Y変数は月次頻度で観察され、x変数は年次頻度で観察されます。さまざまな頻度の回帰に使用できる適切なアプローチに関するガイダンスを本当に感謝します。 どうもありがとうございました

2
ARIMAプロセスのBox-Jenkins法とは正確には何ですか?
Wikipediaのページには、ボックス・ジェンキンスは、時系列にARIMAモデルを適合させる方法であると述べています。ここで、時系列にARIMAモデルを適合させたい場合は、SASを開いてを呼び出しproc ARIMA、パラメーターを指定します。SASはAR係数とMA係数を提供します。これで、p 、d 、qのさまざまな組み合わせを試すことができます。SASを使用すると、各ケースで一連の係数が得られます。赤池情報量基準が最も低いセットを選択します。p,d,qp,d,qp,d,qp,d,qp,d,qp,d,q 私の質問は、上記の手順のどこでBox-Jenkinsを使用したかです。Box-Jenkinsを使用して、初期推定値を出すことになっていますか?それともSASは内部的に何らかの方法でそれを使用しましたか?p,d,qp,d,qp,d,q

3
時系列分析対機械学習?
ただ一般的な質問です。時系列データがある場合、機械/統計学習手法(KNN、回帰)よりも時系列手法(別名、ARCH、GARCHなど)を使用する方がよいのはいつですか?クロスバリデーションされた上に存在する同様の質問がある場合は、私にそれを指摘してください-見たが見つかりませんでした。

2
時系列の予測可能性を判断する方法は?
予測者が直面している重要な問題の1つは、特定の系列 を予測できるかどうかです。 Peter Cattによる「予測可能性の先験的指標としてのエントロピー」というタイトルの記事を偶然見つけました。この記事では、近似エントロピー(ApEn)を使用して 、所定の時系列を予測できる相対的な指標を決定しています。 記事は言う、 「ApEn値が小さいほど、一連のデータの後に類似データが続く可能性が高いことを示します(規則性)。逆に、ApEnの値が大きいほど、類似データが繰り返される可能性が低いことを示します(不規則性)。したがって、値が大きいほど、不規則性が高くなります。 、ランダム性、システムの複雑さ。」 そして、ApEnを計算するための数式が続きます。これは、相対的な意味で予測可能性を評価するために使用できる数値を提供するため、興味深いアプローチです。近似エントロピーの意味がわかりません。詳しく読んでいます。 呼ばれるパッケージがありpracmaにRそれはあなたがAPENを計算することができますが。説明のために、3つの異なる時系列を使用してApEn数を計算しました。 シリーズ1:有名なAirPassenger時系列-非常に確定的であり、簡単に予測できるはずです。 系列2:太陽黒点の時系列-非常に明確に定義されていますが、系列1よりも予測しにくいはずです。 シリーズ3:乱数このシリーズを予測する方法はありません。 したがって、ApEnを計算する場合、シリーズ1はシリーズ2よりも少なく、シリーズ3は非常に少ないはずです。 以下は、3つのシリーズすべてのApEnを計算するRスニペットです。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 これは私が期待したものではありません。ランダムシリーズは、明確に定義されたAirPassengerシリーズよりも数が少ないです。乱数を100に増やしても、明確に定義されたシリーズ2 / Sunspot.yealryシリーズよりも少ない次の結果が得られます。 > series3 <- approx_entropy(rnorm(1:100)) > series3 [1] …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.