タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

4
Statsmodelsは、ARIMAはシリーズが静止していないため適切ではないと述べていますが、それをどのようにテストしていますか?
Pythonのstatsmodels ARIMA APIでモデル化しようとしている時系列があります。以下を適用した場合: from statsmodels.tsa.arima_model import ARIMA model = ARIMA(data['Sales difference'].dropna(), order=(2, 1, 2)) results_AR = model.fit(disp=-1) 次のエラーが発生します。 ValueError: The computed initial AR coefficients are not stationary You should induce stationarity, choose a different model order, or you can pass your own start_params. しかし、私はすでにデータを区別しています: data['Sales'] = data['Sales'] - data['Sales'].shift() 定常性を誘発するためにこれ以上何ができますか? …

2
Rの多重線形回帰のフィッティング:自己相関残差
私はこのような方程式でRの多重線形回帰を推定しようとしています: regr <- lm(rate ~ constant + askings + questions + 0) 質問と質問は、で構成された四半期ごとのデータ時系列askings <- ts(...)です。 問題は、自己相関残差を得たことです。gls関数を使用して回帰を適合させることができることは知っていますが、gls関数に実装する必要がある正しいARまたはARMAエラー構造を識別する方法はわかりません。 私は今、再び推定しようとします、 gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) しかし、残念ながら、pとqを特定するRの専門家でも統計の専門家でもありません。 誰かが私に有用なヒントを与えてくれたら嬉しいです。事前にどうもありがとうございました! ジョー

2
ハミルトンからのARMA(p、q)の状態空間表現
私はハミルトンの第13章を読んでおり、彼はARMA(p、q)に対して次の状態空間表現を持っています。ましょう次のように.ThenはARMA(P、Q)プロセスである: \ {整列} y_tを開始- \ MU&= \ phi_1(Y_ {T-1} - \ MU) + \ phi_2(y_ {t-2}-\ mu)+ ... + \ phi_3(y_ {t-3}-\ mu)\\&+ \ epsilon_t + \ theta_1 \ epsilon_ {t-1} +。 .. + \ theta_ {r-1} \ epsilon_ {t-r + 1}。\ end {aligned} 次に、状態方程式を次のように定義します。r=max(p,q+1)r=max(p,q+1)r = \max(p,q+1)yt−μ=ϕ1(yt−1−μ)+ϕ2(yt−2−μ)+...+ϕ3(yt−3−μ)+ϵt+θ1ϵt−1+...+θr−1ϵt−r+1.yt−μ=ϕ1(yt−1−μ)+ϕ2(yt−2−μ)+...+ϕ3(yt−3−μ)+ϵt+θ1ϵt−1+...+θr−1ϵt−r+1. \begin{aligned} y_t -\mu …

1
TBATSモデルの結果とモデル診断を解釈する方法
マルチシーズンの時系列である、30分ごとの需要データを取得しました。私はRのパッケージで使用tbatsしforecast、次のような結果を得ました: TBATS(1, {5,4}, 0.838, {<48,6>, <336,6>, <17520,5>}) それは、シリーズが必ずしもBox-Cox変換を使用する必要がないことを意味し、エラー項はARMA(5、4)であり、季節性を説明するために6、6、および5項が使用されますか?そのダンピングされたパラメーター0.8383は何を意味しますか?それは変換用でもありますか? 以下はモデルの分解プロットです: 私はモデルについて何をしlevel、slope伝えるのか疑問に思っています。「スロープ」はトレンドを伝えますが、どうlevelですか?以下のための明確なプロットを取得する方法session 1とsession 2、それぞれの日常や季節毎週です。 またtbats、RMSE値を除いて、モデルを評価するためにモデル診断を行う方法を知る必要があります。通常の方法は、エラーがホワイトノイズかどうかをチェックすることですが、ここではエラーはARMAシリーズであると想定されています。エラーの「acf」と「pacf」をプロットしましたが、ARMA(5,4)のようには見えません。私のモデルが良くないということですか? acf(resid(model1),lag.max = 1000) pacf(resid(model1),lag.max=1000) 最後の質問RMSEは、適合値と真の値を使用して計算されます。fc1.week$meanモデルを評価するために予測値と真の値を使用するとどうなりますRMSEか?または、これには別の名前がありますか? fc1.week <-forecast(model1,h=48*7) fc1.week.demand<-fc1.week$mean

1
モデルの検索をいつ停止する必要がありますか?
エネルギーのストックプライスと天気のモデルを探しています。私は、ヨーロッパの国々の間で購入したMWattの価格と、天気に関する多くの価値を持っています(Gribファイル)。5年(2011-2015)の各時間。 価格/日 これは1年間、1日あたりです。私はこれを5時間に1時間ごとに持っています。 天気の例 ケルビンでの1時間の3Dscatterplot。1時間あたりのデータごとに1000個の値と、クレビン、風、地理ポテンシャルなどの200個のデータがあります。 私は、MWの1時間あたりの平均価格を予測しようとしています。 天気に関する私のデータは非常に密度が高く、1時間あたり10000値を超えるため、高い相関関係があります。これは、短いビッグデータの問題です。 私は、ラッソー、リッジ、SVRの方法を試し、MWattの平均価格を結果として、天気のデータを収入として使用しました。トレーニングデータとして70%、テストとして30%を使用しました。テストのデータが予測されていない場合(トレーニングデータ内のどこかにある場合)、適切な予測が得られます(R²= 0.89)。しかし、私は自分のデータを予測したいと思います。 したがって、テストデータが私のトレーニングデータの後に時系列である場合、何も予測されません(R²= 0.05)。時系列なので、普通だと思います。そして、多くの自己相関があります。 ARIMAのようなタイムセリエモデルを使わないといけないと思いました。メソッドの順序(セリエが静止している)を計算してテストしました。しかし、それは動作しません。つまり、予測のr²は0.05です。テストデータに対する私の予測は、テストデータに対する予測とはまったく異なります。私は自分の天気をリグレッサとしてARIMAXメソッドを試しました。つまり、情報は追加されません。 ACF / PCF、テスト/トレーニングデータ だから私は一日あたり、そして週あたりの季節のカットをしました 日 最初のトレンドの週 そして、私の株価のトレンドの傾向を事前に判断できれば、これを得ることができます: 青は私の予測であり、赤は実際の値です。 天気のローリング平均を収入として、株価のトレンドのトレンドを結果として回帰を行います。しかし、今のところ、私はどんな関係も見つけていません。 しかし、相互作用がない場合、何もないことをどうやって知ることができますか?多分それは私がそれを見つけていないだけのことです。

4
時系列の異常値の検出:誤検知を減らす方法は?
私は、時系列で異常値の検出を自動化しようとしています。ここでは、Rob Hyndmanによって提案されたソリューションの修正を使用しました。 たとえば、さまざまな国からのWebサイトへの毎日のアクセスを測定します。毎日の訪問が数回または数千回であるいくつかの国では、私の方法は合理的に機能しているようです。 ただし、国が1日に1回または2回しか訪問しない場合、アルゴリズムの制限は非常に狭く(1±0.001など)、2回の訪問は異常値と見なされます。どのようにしてそのようなケースを自動的に検出し、どのようにそれらを処理して異常値を特定できますか?たとえば、1日あたり100回の訪問という手動のしきい値を設定したくありません。 ありがとうございました!

1
サンプルパスから確率的プロセスのエルゴード性をどのようにチェックしますか?
サンプルパスから広義の定常確率プロセスのエルゴード性をどのようにチェックしますか? 単一のサンプルパスからエルゴード性をチェックできますか?または、複数のサンプルパスが必要ですか? エルゴード性をチェックする1つの動機は、母集団の平均の推定値としてサンプルパスの平均を経時的に安全に使用できることを保証するための時系列です。

2
時系列分類-非常に悪い結果
入力が携帯電話アカウントの最初の21日間の時系列音声使用データ(秒単位)である時系列分類問題に取り組んでいます。対応するターゲット変数は、そのアカウントが35〜45日の範囲でキャンセルされたかどうかです。したがって、これはバイナリ分類問題です。 これまでに試したすべての方法から(さまざまな程度で)非常に悪い結果が得られます。最初に、k-NN分類(さまざまな変更を加えて)を試しましたが、非常に悪い結果が得られました。これにより、時系列から特徴を抽出することになりました。つまり、平均、分散、最大、最小、合計ゼロ日、合計後続ゼロ日、前半平均と後半平均の差などであり、最も予測的な特徴は合計であるように見えました。ゼロ日と合計末尾ゼロ日(いくつかの分類アルゴリズムを使用)。これは最高のパフォーマンスを示しましたが、パフォーマンスはまだあまり良くありませんでした。 次の戦略は、トレーニングセットのネガティブインスタンスが非常に少ないため、オーバーサンプルすることでした。これは、より正確なキャンセル予測をもたらしましたが、より多くの偽陽性を犠牲にしています。 おそらく、時系列の使用状況データ自体は単純にあまり予測的ではないと考え始めています(常識では予測すべきであるとされていますが)。おそらく、私が考慮していない潜在的な変数がいくつかあります。データを見ると、奇妙な動作も見られます。つまり、一部の例では使用量がほとんどないか、減少している(またはまったくない)場合があり、キャンセルされない場合や、使用量が増加してキャンセルされる場合があります。おそらく、この矛盾した振る舞いは、分類器の非常に明確な決定境界を生成しません。 エラーの別の考えられる原因は、多くのトレーニング例が非常にまばらであるという事実です(つまり、使用量がゼロの状態で何日も)。私がまだ試していないアイデアの1つは、時系列をセグメントに分割し、いくつかの機能をそのように生成することですが、あまり望んでいません。

1
月次収益の分散に基づく年次収益の分散
私は時系列の財務的リターンの全体的な分散/標準誤差の事柄を理解しようとしています、そして私は行き詰まっていると思います。期待値1.00795、分散0.000228(標準偏差は0.01512)の一連の月次株価データ(としましょう)があります。年間リターンの最悪のケースを計算しようとしています(たとえば、期待値から標準誤差の2倍を引いたとしましょう)。それを行う最善の方法はどちらですか?A。1か月分()を計算し、それを12倍します(= 0.7630)。B。月が独立していると仮定して、 12回定義し、期待値を見つけますXXX μX−2⋅σX=0.977μX−2⋅σX=0.977\mu_X-2\cdot \sigma_X=0.977 Y=X⋅X⋅...⋅XY=X⋅X⋅...⋅XY=X\cdot X\cdot ...\cdot XE[Y]=(E[X])12E[Y]=(E[X])12E[Y]=(E[X])^{12})と分散。この場合の標準偏差は0.0572であり、期待値から標準偏差の2倍を引いた値が0.9853です。C。月次標準偏差にを乗算して年間偏差を取得します。これを使用して年間最悪のケースを見つけます値()。0.9949と表示されます。 どちらが正しいですか?予想される年間値からstdの2倍を計算するには、月次データについてのみこれらのプロパティがわかっている場合、正しい方法は何ですか?(一般的に、 12回、場合、var[Y]=(var[X]+(E[X])2)12−((E[X]2)12var⁡[Y]=(var⁡[X]+(E[X])2)12−((E[X]2)12\operatorname{var}[Y]=(\operatorname{var}[X]+(E[X])^2)^{12} - ((E[X]^2)^{12} 12−−√12\sqrt{12}μ−2⋅σμ−2⋅σ\mu - 2\cdot \sigmaY=X⋅X⋅...⋅XY=X⋅X⋅...⋅XY=X\cdot X\cdot ...\cdot XμXμX\mu_XσXσX\sigma_X知られている、何ですか?)μY−2⋅σYμY−2⋅σY\mu_Y-2\cdot \sigma_Y

2
時系列データの空間的自己相関
一連のポリゴン(約200の不規則な形状の連続したポリゴン)の種の数の年間数の20年のデータセットがあります。私は回帰分析を使用して、各ポリゴンの傾向(1年あたりの数の変化)と、管理境界に基づくポリゴンデータの集約を推測しています。 データに空間的自己相関があると確信しています。これは、集約されたデータの回帰分析に影響を与えます。私の質問は-時系列データのSACテストを実行するにはどうすればよいですか?毎年の回帰の残差のSAC(グローバルモランI)を確認する必要がありますか?または、すべての年で1つのテストを実行できますか? はい、SACがあることをテストしたら、これに対処するのは簡単でしたか?私の統計の背景は最小限であり、私が時空間モデリングで読んだすべては非常に複雑に聞こえます。Rに距離重み付けされた自己共変量関数があることを知っています-これは使用するのが簡単ですか? 私はこの問題についてSACを評価/追加する方法について非常に混乱しており、提案、リンク、または参考資料をいただければ幸いです。前もって感謝します!

2
各日付の複数の観測を含む時系列を構築する
私は、四半期ごとに3担当者がいる10年間の四半期ごとにサンプリングされたデータ(動物バイオマス)に時系列を適用しようとしています。つまり、40日付ですが、合計120観測です。 私は、ShumwayのSARIMA'aとStofferの時系列分析まで読んだことがあります。al。の適用時系列分析。私の理解では、各モデルは時系列の各ポイントでの単一の観測に基づいています。 質問:モデルの各観測値の変動をどのように含めることができますか?平均値でシリーズを構築することはできますが、観測ごとの変動を緩めるので、何が起こっているのかを理解する上でそれは重要です。
11 r  time-series 

1
インクリメンタルIDF(逆ドキュメント頻度)
テキストマイニングアプリケーションでの1つの簡単なアプローチは、ヒューリスティックを使用して、ドキュメントのコンパクトなスパース表現としてベクトルを作成することです。i d fはコーパス全体を必要とするため、コーパス全体が事前に知られているバッチ設定ではこれは問題ありません。t f- I Dftf−idftf-idf私はdfidfidf 私はd f(t )= ログ| D || {d:T ∈ D} |idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} ここで、は用語、dはドキュメント、Dはドキュメントコーパス、T(図示せず)は辞書です。tttdddDDDTTT ただし、通常、新しいドキュメントは時間の経過とともに受信されます。1つのオプションは、既存の使用して維持することである新規文書の特定の数が受信されるまで、再計算それ。ただし、これはかなり非効率的です。すべてのデータが事前に確認された場合に、(ほぼ)値に収束する増分更新スキームを知っている人はいますか?または、代わりに、同じ概念をキャプチャしますが、増分的に計算できる別のメジャーがありますか?私はdfidfidf また、時間の経過とともにが適切な指標であるかどうかという関連する質問もあります。idfはコーパスの単語頻度の概念を取り込むため、さまざまな単語の頻度が時間の経過とともに変化するため、コーパス内の古いドキュメント(たとえば、私のコーパスには100年を超えるジャーナル記事が含まれる)が考えられます。この場合、実際にはスライディングウィンドウi d fを使用して、新しいドキュメントが入ったときに古いドキュメントを破棄する方が賢明な場合があります。おそらく、人はまた、以前のすべて格納することができ、私D 、F、新しいものが計算されるベクトルを、そして私たちが言う1920年から1930年からの文書を検索したい場合は、その後、我々は使用することができ、私のD Fをidfidfidfidfidfidfidfidfidfidfidfidfその日付範囲のドキュメントから計算されます。このアプローチは意味がありますか? 編集:辞書は別の関連する問題があります。時が経つにつれ、以前にはなかった新しい辞書用語が登場するでしょう。T | 成長する必要があるため、i d fベクトルの長さ。古いi d fベクトルにゼロが追加される可能性があるため、これは問題にならないようです。TTT|T||T||T|idfidfidfidfidfidf

1
時系列の自己相関関数から何を読み取るか?
時系列が与えられると、自己相関関数を推定してプロットすることができます。たとえば、次のようになります。 次に、この自己相関関数から、時系列について何を読み取ることができますか?たとえば、時系列の定常性について推論することは可能ですか? 編集:ここでは、ラグの多い差分シリーズのACFを含めました

1
時系列の違いの信頼区間
いくつかのプロセスの時系列をシミュレートするために使用される確率モデルがあります。1つのパラメーターを特定の値に変更した場合の影響に興味があり、時系列(モデルAとモデルBなど)とある種のシミュレーションベースの信頼区間の違いを示したいと思います。 私は単純に、モデルAからの一連のシミュレーションとモデルBからの一連のシミュレーションを実行し、各時点の中央値を差し引いて、時間全体の中央値の差を求めています。同じ方法を使用して、2.5と97.5の分位数を見つけました。私は各時系列を一緒に考慮していないので、これは非常に保守的なアプローチのように見えます(たとえば、各ポイントは過去および将来の時間で他のすべてのポイントから独立していると見なされます)。 これを行うより良い方法はありますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.