統計とビッグデータ arima

3

私はARIMAモデリングに夢中になっていて、プロモーションモデリングの目的で外因性変数が追加されており、ビジネスユーザーに説明するのに苦労しています。場合によっては、ソフトウェアパッケージは単純な伝達関数、つまりパラメーター*外生変数で終わることがあります。この場合、解釈は簡単です。つまり、プロモーションアクティビティX（外因性のバイナリ変数で表されます）は、従属変数（たとえば、需要）にYの量で影響します。したがって、ビジネス用語では、プロモーション活動XはYユニットによる需要の増加をもたらすと言えます。伝達関数がより複雑になる場合があります。たとえば、多項式*外生変数の除算です。私ができることは、すべての動的回帰係数を見つけるために多項式の除算を行い、たとえば、プロモーション活動は、それが発生する期間中の需要だけでなく、将来の期間にも影響を与えると言うことです。しかし、ソフトウェアパッケージは多項式の除算として出力伝達関数を出力するため、ビジネスユーザーは直感的な解釈を行うことができません。除算せずに複雑な伝達関数について言えることはありますか？関連するモデルのパラメータと関連する伝達関数を以下に示します。定数= 4200、AR（1）、プロモーション活動係数30、Num1 = -15、Num2 = 1.62、Den1 = 0.25 ですから、この期間にプロモーション活動を行うと、需要のレベルが30単位増えると思います。また、伝達関数（多項式の除算）が存在するため、プロモーション活動は現在の期間だけでなく、その後の期間にも影響を与えます。問題は、プロモーションの影響を受ける将来の期間の数と、需要単位での期間あたりの影響をどのように見つけることができるかです。

9 time-series data-visualization forecasting arima causality

2

ARIMA予測、季節性と傾向、奇妙な結果

ARIMAモデルを使用した予測に足を踏み入れているとき、季節性とドリフトに適合するARIMAに基づいて予測を改善する方法を理解しようとしています。私のデータは次の時系列です（3年以上、明確な上昇傾向と目に見える季節性があり、ラグ12、24、36の自己相関ではサポートされていないようです）。 > bal2sum3years.ts Jan Feb Mar Apr May Jun Jul Aug 2010 2540346 2139440 2218652 2176167 2287778 1861061 2000102 2560729 2011 3119573 2704986 2594432 2362869 2509506 2434504 2680088 2689888 2012 3619060 3204588 2800260 2973428 2737696 2744716 3043868 2867416 Sep Oct Nov Dec 2010 2232261 2394644 2468479 2816287 2011 2480940 …

9 r time-series forecasting arima seasonality

3

一定分散の仮定に違反する場合、どのモデルを使用できますか？

一定分散の仮定に違反するとARIMAモデルを近似できないため、単変量時系列を近似するためにどのモデルを使用できますか？

9 time-series modeling forecasting arima

4

外れ値を含む時系列のモデルを適合させる方法

私はauto.arima()、Rの関数を使用してARIMA（5,1,2）モデルを近似しました。そして、次数を調べることにより、これは予測するのに最適なモデルではないと言えます。データ系列に外れ値が存在する場合、そのようなデータにモデルを適合させる方法は何ですか？

9 r time-series forecasting outliers arima

2

（0,1）によってバインドされたパーセンテージを予測するための時系列モデルとは何ですか？

これは浮かび上がるはずです--- 0と1の間で止まっているものの予測。私のシリーズでは、自動回帰コンポーネントと平均回帰コンポーネントも疑っています。そのため、ARIMAのように解釈できるものが欲しいのですが、将来1000％まで飛ばしたくありません。。ロジスティック回帰のパラメーターとしてARIMAモデルを使用して、結果を0と1の間に制限しますか？または、ベータ回帰は（0,1）データに適していることをここで学びました。これを時系列にどのように適用できますか？これを簡単にフィッティングおよび予測できる優れたRパッケージまたはMatlab関数はありますか？

9 time-series forecasting logistic arima beta-regression

2

混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ

以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコードこれが私のRコードです： library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

3

auto.arimaはstdエラーで生成されたNaNに警告します

私のデータは、雇用人口の時系列Lと期間、年です。 n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 In-sample error measures: ME RMSE MAE MPE MAPE -7.285102e-06 1.225907e-03 9.234378e-04 -6.836173e-05 …

9 r regression arima

1

時系列モデルの選択：AICとサンプル外のSSEおよびそれらの同等性

AICは、時系列予測のモデルを比較する基準として頻繁に推奨されます。たとえば、動的回帰モデルのコンテキストでこれを参照してください。最終モデルのAICを計算でき、この値を使用して最適な予測子を決定できます。つまり、考慮すべき予測子のすべてのサブセットと、AICc値が最も低いモデルを選択するために、この手順を繰り返す必要があります。サンプル外のパフォーマンスに基づいてモデルを比較してみませんか？（たとえば、サンプル外予測でSSEが最も低いモデルを選択します）。私は時系列予測に関するいくつかの教科書とウェブサイトを読んでいて、この議論を見つけていません。私が得た最も近いものは、AICの事実と誤謬に関するこのブログエントリでした。 AICは実際には「サンプル内」の指標ではありません。はい、トレーニングデータを使用して計算されます。しかし、漸近的に、AICを最小化することは、断面データの1つを残した交差検証MSEを最小化することと同等であり、時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です。この特性により、予測用のモデルの選択に使用するための魅力的な基準になります。私が働いていた例（ここではプロットを投稿できませんでした。このサイトではもっと評判が必要です）で両方のアプローチを試しましたが、ほとんどの場合、AICとサンプル外のSSEは同じ結果になりません結果。私が使用した手順は次のとおりです。トレーニングサンプルとテストサンプルのデータを分割しました（任意の時点で、以下の質問について）トレーニングサンプルを使用して、競合するモデル（外部リグレッサを含むARIMA、ARIMAパラメータとリグレッサを変更）を推定しました（最初の230期間。すべてのモデルの観測数は同じなので、AICは同等です）。次に、テストサンプルと同じ期間（期間231〜260）のシリーズを予測しました。 SSE=∑260t=231(ytˆ−yt)2SSE=∑t=231260(yt^−yt)2SSE=\sum_{t=231}^{260}(\widehat{y_t}-y_t)^2ytyty_tytˆyt^\widehat{y_t} AIC（トレーニングデータを使用して計算）で示されたモデルを、サンプル外のSSEが最も低いモデルと比較しました。ほとんどの場合、選択されたモデルは異なります（少なくとも視覚的には、SSEによって選択されたモデルはパフォーマンスが向上します）。誰かがこの背後で何が起こっているのか説明してくれるなら、とても感謝しています。私は明らかにこれの専門家ではありません。ちょっと教えようとしているだけなので、読んでいる教科書で大切なことを見落としてしまったら失礼します。最後に、トレーニングおよびテストサンプルのデータを時系列に分割することに関する質問。断面データに対して同じ手順を使用することとは根本的に異なるものがあるように私には思えます。断面データの場合、データセット全体から2つのランダムサンプルを取得できます。時系列では、これはあまり意味がありません。したがって、シリーズをトレーニングサンプルとテストサンプルに分割するには、任意のポイントを取る必要があります。問題は、通常、最良のモデルは任意のポイントごとに異なるということです。おそらくそれが、このアプローチが頻繁に使用されていないように思われる理由です。これがモデル選択にAICが推奨される理由ですか？（「漸近的に、AICを最小化することは...時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です」。）

9 time-series cross-validation model-selection arima aic

3

時系列モデルのサンプリング効果

私は主にAR（I）MAとカルマンの財務時系列モデルで広範囲に取り組んでいます。私が直面している1つの問題は、サンプリング周波数です。最初は、基礎となるプロセスからより頻繁にサンプリングする可能性が提供された場合、できるだけ多くのサンプルを収集する必要があるため、サンプルの数を大幅に増やすため、モデルパラメーターの変動が少なくなると考えていました。実際には、このアイデアは良いものにはなりませんでした。何が起こったかというと、基礎となるプロセスが十分な変動を示さない場合、サンプリング周波数を上げると、実際には多くの繰り返し（同じ）値を取得することになります。そして、そのような値に基づいてモデルを構築すると、モデル係数が非常に小さく、将来予測が不十分なモデルになります（もちろん、「よく」の定義は主観的であり、頻度の増加により、より多くのサンプルステップを予測する必要があります。低い周波数設定で同じタイムステップを実現します）。モデルは、最も遭遇するもの、つまりフラットラインを学習します。アダプティブサンプリングアプローチを実行したいと思いました。つまり、変動がある場合はより頻繁にサンプリングし、変動がない場合はより少ないサンプリングを行いました。しかし、これは簡単ではありません。まず最初に、そうすることでどのようなバイアスを導入しているのかが明確ではありません（サンプル/スキップをトリガーする方法によって異なります）。次に、ARIMAのような時系列モデルは、不均一なサンプルステップにはあまり適していません。この問題に対処する良い方法はありますか？また、モデルがサンプリング周波数の影響を大きく受けている場合（特に、時間ステップが次第に小さくなる場合）、連続時間モデルと離散時間モデルの間のシームレスな遷移を実現するにはどうすればよいのでしょうか。外部リソースへのポインタも歓迎されます。ありがとう

9 time-series sampling arima

1

「機械学習者」からの統計的な金融時系列モデルに関するいくつかの質問

なぜ私がこれらの愚かな質問をするのかを説明するために、以下で見つけることができます。私はより機械学習の人であると言わなければなりません。私はバイオインフォマティクスの問題に取り組みましたが、すべてが順調でした。「回帰」や「尖度とゆがみ」などの言葉を聞いたとき、最初は微笑んだだけで、2番目のケースは「はい、聞いたことがある。それを計算する方法を知っていますが、なぜ地球上で誰もがそれを必要とするのですか？」 1年前の状況は劇的に変化しました。楽しみのために、機械学習の知識をいくつかの財務時系列に適用しようとしました。「テクニカル」「分析」「指標」から提供される信号からベイジアンネットワークを作成することから始めました。アイデアは失敗しました。また、このサイト（ベイジアンの代わりにニューラルネットワークを使用）で同様のアイデアを持つ少なくとも2つのトピックを見つけることは、いくらか喜ばしいことでした。次に、多くの努力の結果、kNNとシンボリック回帰の混合を構築することができました。これは、2000年から2006年までの1時間のデータでトレーニングし、2007年のデータでテストしました。しかし、それを最新のデータに適用すると、経済の急激な変化により精度が大幅に低下し、市場で何かが変化し、2-5でしか取得できない新しいデータが必要になったため、精度が低下していることに気付きました。年。後で、たくさんのことを試しましたが、もしこのすべてが「ただの楽しみ」として始まったとしたら、それはもう楽しくありませんでした。私がARIMA、GARCH、TARやその他のまったく新しいものについてRuey S. Tsayのオンライン講義を見つけるまでは。基本的に私は全く新しい世界を見つけ、それを本当に楽しんでいます。現在、私は最初のARIMAモデルに適合させることができました。次に、ACF、PACF、季節性などを検討することにより、rms-errorを2回削減するように調整しました。さて、楽しみは戻ってきました、私はそれをたくさん持っていました、そして私はもっと持っていると期待していますしかし、いくつか質問があり、この素晴らしいサイトを見つけました。ここでは、ARIMAとその他の関連技術に関するほぼすべてのトピックを読み、同様のアプローチに関連する他の多くの一般的なトピックも読んでください。確かにもっと読むでしょう。私はまだ機械学習アプローチの考え方の枠内で考えています。それは多くの愚かな質問につながり、そのほとんどはこのサイトで答えを見つけます。だから、この長い紹介の後に、私の残りの愚かな質問があります：機械学習アプローチはデータ内の「パターン」を見つけることについてより関心がありますが、ランダムウォーク理論を広く使用する金融時系列の統計モデル（パターンの存在を少なくとも疑わしくします）と矛盾します。非常にナイーブで誤った説明ですが、私が言いたいのは、ほとんどの機械学習手法は、問題に対する統計的アプローチと概念的に矛盾しているということです。いくつかのアプローチの方が優れていると言っているのではなく、矛盾していると言っているだけです。それは正しいですか、この矛盾はどのくらい大きいですか？機械学習と統計の融合のように見えるTARモデルの説明とアイデアが本当に気に入りました。これは、ARIMAにGARCHを追加した後で次に試してみたいモデルです。しかし、私はそれについていくつか質問があります： TARは統計的手法と機械学習手法の両方を使用しています。それで、私の最初の質問を念頭に置いて、モデルのセットのパターンを見つけようとすると、基本的にパターンを除外する理論に基づいて構築されていますが、エラーはありませんか？または、同じ問題のさまざまな側面を研究する2つのモデルを1つのさらに強力なモデルに結合する方法の単なるアイデアですか？このサイトで「ARIMA」というキーワードで検索すると、15ページのトピックが表示されますが、TARの場合は1つしかありません。また、なぜARの適用をやめたのですか？このアイデアをより複雑なモデル（ARIMAなど）に拡張してみませんか？TARがARに対して期待された改善を提供しなかったからでしょうか？ MCMCの手法やその他の機械学習の要素が現在統計モデルと混合されていることを知っています。個人的には、隠れマルコフモデルと条件付きランダムフィールドの大ファンでもあります。これらの方法と統計モデルの混合について知っていますか？

9 machine-learning arima finance

1

Arimax予測：予測パッケージの使用

パッケージのarimax関数は、TSA私の知る限りR、介入モデルの伝達関数に適合する唯一のパッケージです。予測機能はありませんが、必要な場合があります。優れたforecastパッケージを活用して、この問題の次の回避策はありますか？予測間隔は正しいですか？私の例では、コンポーネントのstdエラーは「近い」ものです。予測パッケージのアリマ関数を使用して、介入前のノイズシリーズを決定し、外れ値の調整を追加します。同じモデルをフィットarimaxさせますが、伝達関数を追加します伝達関数のarimax近似値（からの係数）を取得し、それらをxreg inとして追加しますarima。と予測 arima library(TSA) library(forecast) data(airmiles) air.m1<-arimax(log(airmiles),order=c(0,0,1), xtransf=data.frame(I911=1*(seq(airmiles)==69)), transfer=list(c(1,0)) ) air.m1 出力： Coefficients: ma1 intercept I911-AR1 I911-MA0 0.5197 17.5172 0.5521 -0.4937 s.e. 0.0798 0.0165 0.2273 0.1103 sigma^2 estimated as 0.01223: log likelihood=88.33 AIC=-168.65 AICc=-168.09 BIC=-155.02 これはフィルターであり、データより5期間延長されています tf<-filter(1*(seq(1:(length(airmiles)+5))==69),filter=0.5521330,method='recursive',side=1)*(-0.4936508) forecast.arima<-Arima(log(airmiles),order=c(0,0,1),xreg=tf[1:(length(tf)-5)]) forecast.arima 出力： Coefficients: ma1 intercept tf[1:(length(tf) - …

8 r time-series forecasting arima intervention-analysis

1

複数のARIMAモデルはデータによく適合します。順序を決定する方法は？正しいアプローチ？

2つの時系列（男性と女性のモデルのパラメーター）があり、予測を行うために適切なARIMAモデルを特定することを目指しています。私の時系列は次のようになります。プロットとACFは非定常を示しています（ACFのスパイクは非常にゆっくりとカットオフします）。したがって、私は差分を使用して取得します：このプロットは、系列が静止している可能性があり、kpssテストとadfテストの適用がこの仮説をサポートしていることを示しています。男性シリーズから始めて、以下の観察を行います。ラグ1、4、5、26および27での経験的自己相関は、ゼロとは有意に異なります。 ACFはカットオフ（？）しますが、ラグ26と27での比較的大きなスパイクが心配です。ラグ1と2での経験的部分自己相関のみが、ゼロと有意に異なります。これらの観察のみに基づいて、差分時系列に純粋なARモデルまたはMAモデルを選択する必要がある場合、次のように主張してAR（2）モデルを選択する傾向があります。ラグが2より大きい場合、部分的な自己相関はありません。 ACFは、27ラグ付近の領域を除いてカットオフします（これらの少数の外れ値だけが指標であり、混合ARMAモデルが適切であることを示しますか？）または以下のように主張することによりMA（1）モデル： PACFは明らかにカットオフラグには、マグニチュードの臨界値を超える1〜4のスパイクがあります。これは、点線領域の外にあることが許可されている3つのスパイク（60のうち95％）より1つ多い「唯一の」ものです。 ARIMA（1,1,1）モデルの特性はなく、p + q> 2のACFおよびPACFに基づいてARIMAモデルのpおよびqの次数を選択することは困難になります。 auto.arima（）をAIC基準で使用すると（AICまたはAICCを使用する必要がありますか）、次の結果が得られます。ドリフトのあるARIMA（2,1,1）。AIC = 280.2783 ドリフト付きARIMA（0,1,1）。AIC = 280.2784 ドリフト付きARIMA（2,1,0）。AIC = 281.437 検討した3つのモデルすべてがホワイトノイズの残差を示しています。要約した質問は次のとおりです。時系列のACFは、26ラグ前後の急上昇にもかかわらず、まだ切断されていると説明できますか？これらの外れ値は、混合ARMAモデルがより適切である可能性があることを示す指標ですか？どの情報基準を選択すればよいですか？AIC？AICC？ AICが最も高い3つのモデルの残差はすべてホワイトノイズ動作を示しますが、AICの差はごくわずかです。パラメータが最も少ないもの、つまりARIMA（0,1,1）を使用する必要がありますか？私の議論は一般的にもっともらしいですか？どちらのモデルが優れているかを判断する可能性はありますか？たとえば、AICが最も高い2つのモデルでバックテストを実行して予測の妥当性をテストする必要がありますか？編集：ここに私のデータがあります： -5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370 0.5826312749 0.3869227286 …

8 r time-series modeling arima autocorrelation

2

セキュリティリターン+ ARIMA / GARCHの質問を予測するために使用できる計量経済モデル

私は学部の論文を書こうとしています。そこでは、特定の金融時系列で特定の計量経済モデルの予測力をテストします。私はこれをどうやってやるべきかについていくつかのアドバイスが必要です。状況を説明するために、私は主に計量経済学を自己学習しています。私がこのテーマに取り組んだ唯一のコースは、時系列モデルを掘り下げる前に止まったので、私はこのテーマの専門家ではありません。残念なことに、私は最近ARIMAモデルが株価（およびその他のセキュリティ）のリターンを予測するのが非常に悪いことを読みました。私の学校の経済学部の教授もこれを確認しました。この間ずっと、それらがおそらくいくつかの財務時系列の予測にリモートで役立つことを願っていました...私が見ることができる他のモデルはありますか？私の目標は、RまたはMATLABで時系列の計量経済モデリングを学習し、うまくいけば統計的に有意な予測結果を見つけることです。また、あなたが注目する特定の市場（エネルギー、レート、株式）はありますか？最後に、GARCHはボラティリティの予測にのみ使用されますか？私が言及した教授は、株価のリターンをモデル化するために、GARCHまたはARIMA-GARCHモデルに目を向けるべきだと示唆しているようです。実際の返品にも使えるかもしれないと思われる論文をいくつか読んだのですが... ARIMA-GARCHモデルのARおよびMAコンポーネントは、ARMAモデルのコンポーネントと異なりますか？私が漠然と理解したことから、ARIMAとGARCHは2つの完全に別のものです（前者は実際の時系列を予測するために使用され、もう一方はその変動性を予測するために使用されます）。質問が多すぎないことを願っていますが、どこに向かえばよいのかわからないので、私はこれまでずっと自分で研究してきました。どうもありがとう！

8 time-series forecasting econometrics arima garch

4

回帰係数に季節性を許容する方法はありますか？

時系列G tと共変量B tがあるとします。ARMAモデルによってそれらの間の関係を見つけたい： G T = Z T +β 0 +β 1 B T ここで、残差Z tはいくつかのARMAプロセスに従います。問題がある：私は確かに知っているβ 0及びβ 1年の時間とともに変化します。それでも、月ごとに個別のモデルをあてはめたくありません。これは、時系列に不連続性をもたらすため、最終的な残差の自己相関関数を計算できないためです。それで、共変量の相関係数を季節的に変化させることができる時系列モデル（またはモデルのファミリー、不思議）はありますか？ ======================== 編集：ここに答えてくれてありがとう。季節限定のダミーを使うことにしたのですが、忙しかったので間に合いませんでした。

8 time-series correlation econometrics arima time-varying-covariate

1

Rのauto.arimaは、考えられる他のモデルよりもAIC、AICC、BICが高いモデルを報告する必要がありますか？

auto.arimaを使用して時系列モデル（Rob Hyndmanのサイトで説明されているように、ARIMAエラーのある線形回帰）を近似しました情報基準の値を次のように報告します AIC：2989.2 AICC：2989.3 BIC：3261.2 Arimaを使用して、ドリフト構造を持つ（1,1,1）のモデルを近似すると、出力は著しく低いICの AIC：2510.3 AICC：2510.4 BIC：2759 auto.arimaに、ドリフトモデル（start.pおよびstart.qパラメーターを使用）で（1,1,1）を考慮するように強制できます。その際、 "trace = TRUE"を設定します。（1,1,1）ドリフトモデルは考慮されますが、auto.arimaによって拒否されます。それでも（5,1,0）ドリフトモデルが最良の結果として報告されます。 auto.arimaが他の基準を使用してモデルを選択する状況はありますか？追加するために編集（リクエストに応じて）この例のデータは、このGoogleスプレッドシートで見つけることができます例を再現するRコードは repro = read.csv("mindata.csv") reprots = ts(repro, start=1, frequency=24) fitauto = auto.arima(reprots[,"lnwocone"], xreg=cbind(fourier(reprots[,"lnwocone"], K=11), reprots[,c("temp","sqt","humidity","windspeed","mist","rain")]), start.p=1, start.q=1, trace=TRUE, seasonal=FALSE) fitdirect <- Arima(reprots[,"lnwocone"], order=c(1,1,1), seasonal=c(0,0,0), xreg=cbind(fourier(reprots[,"lnwocone"], K=11), reprots[,c("temp","sqt","humidity","windspeed","mist","rain")]), include.drift=TRUE) summary(fitauto) summary(fitdirect) Googleドキュメントデータ-インラインコードはサンプルを提供する最良の方法ではありません。私は過去のガイドラインでこれを行うための最良の方法を見てきましたが、今朝の検索でそれらのガイドラインを見つけることができませんでした。

8 r arima aic

タグ付けされた質問 「arima」

タグ付けされた質問「arima」