タグ付けされた質問 「forecasting」

将来のイベントの予測。これは、[時系列]のコンテキストでは、[予測]の特殊なケースです。

2
Rで異常値を検出して予測を行う方法 -時系列分析の手順と方法
私は毎月の時系列データを持っていますが、外れ値を検出して予測を行いたいです。 これは私のデータセットのサンプルです。 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93 7.99 7.93 2008 8.46 8.48 9.03 9.43 11.58 12.19 12.23 11.98 12.26 …

3
ETS()関数、履歴データと一致しない予測を回避する方法
毎月の予測計算を自動化するために、Rのアルゴリズムに取り組んでいます。特に、予測パッケージのets()関数を使用して予測を計算しています。それは非常にうまく機能しています。 残念ながら、特定の時系列について、私が得る結果は奇妙です。 私が使用しているコードを以下で見つけてください: train_ts<- ts(values, frequency=12) fit2<-ets(train_ts, model="ZZZ", damped=TRUE, alpha=NULL, beta=NULL, gamma=NULL, phi=NULL, additive.only=FALSE, lambda=TRUE, lower=c(0.0001,0.0001,0.0001,0.8),upper=c(0.9999,0.9999,0.9999,0.98), opt.crit=c("lik","amse","mse","sigma","mae"), nmse=3, bounds=c("both","usual","admissible"), ic=c("aicc","aic","bic"), restrict=TRUE) ets <- forecast(fit2,h=forecasthorizon,method ='ets') 以下の関連する履歴データセットを見つけてください: values <- c(27, 27, 7, 24, 39, 40, 24, 45, 36, 37, 31, 47, 16, 24, 6, 21, 35, 36, 21, 40, 32, 33, …

1
Rの多変量時系列予測の遅れた相関を見つけてモデルを構築する方法
このページは新しく、統計とRはかなり新しいです。私は大学で、雨と川の水位の相関を見つけることを目的としたプロジェクトに取り組んでいます。相関が証明されたら、それを予測/予測したいと思います。 データ には、以下を含む特定の河川の数年(5分ごとに取得)のデータセットがあります。 降雨量(ミリメートル) 立方メートル/秒の河川流量 この川には雪がありませんので、モデルは雨と時間に基づいています。時々気温が氷点下になることがありますが、この状況は私のプロジェクトの範囲外であるため、これらの期間をデータから除外することを考えています。 例 ここでは、数時間後の雨と水の上昇からのサンプルデータのプロットがいくつかあります。 赤い線は川の流れです。オレンジは雨です。川で水が上がる前にいつも雨が降るのを見ることができます。時系列の終わりに再び雨が降り始めますが、後で川の流れに影響を与えます。 相関関係があります。Rでccfを使用して相関関係を証明するためにRで行ったことを次に示します。 相互相関 先行変数 遅れ これは、2番目の例(1つの降雨期間)に使用される私のRラインです。 ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") 私の解釈は: 雨が降る(最初に起こる) 遅れでピークに達する重要な相関関係があり(正確な数を確認できます。その部分は知っています)。≈ 450≈450\approx 450 相関が川の流れに影響を与える時間を見つける方法がわかりません。名前は「保持」だと思います。私が見るものは、川が雨の後に水を失うとき、最初のグラフと同じ形をしたグラフです。それに基づいて、保持がからピークでまで続くと言えない場合(返されたデータフレームで作成されたオブジェクトでこれを確認し、水位が値に戻ったときを確認できます) 「雨の前」のことです正しいですか?保持を見つけるより良い方法はありますか?≈ 450≈450\approx 450≈ 800≈800\approx 800ccf 私は正しいですか? 時系列について。この時系列には周期性や季節性はありません。雨はいつでも降り、影響を及ぼします。夏には減りますが、それでも起こります。一年中雨が多い地域です。 モデルと予測。 雨が降った後に川がどれだけの量を増やすかを予測する予測を行うことができるようにモデルを作成する方法がわかりません。私はいくつか試してみましたがarima、auto arimaあまり成功していません。Arima、varsまたは他の異なる多変量モデルを使用する必要がありますか?例へのリンクは大いに役立ちます。 この予測を作成する最良の方法を知っている場合は、どのモデルを使用すればよいか教えてください。他にもいくつか検討していることがありますが、簡単にするためにこの説明から除外しています。必要に応じてデータを共有できます。

2
時系列予測における確率的対決定論的傾向/季節性
時系列予測のバックグラウンドは中程度です。私はいくつかの予測の本を見ましたが、それらのいずれにも対処された以下の質問はありません。 2つの質問があります。 特定の時系列に以下が含まれている場合、どのように客観的に(統計テストを介して)決定しますか? 確率的季節性または決定論的季節性 確率的傾向または決定論的傾向 時系列に明確な確率的要素があるときに、時系列を決定論的な傾向/季節性としてモデル化するとどうなりますか? これらの質問に対処するための助けをいただければ幸いです。 傾向のデータ例: 7,657 5,451 10,883 9,554 9,519 10,047 10,663 10,864 11,447 12,710 15,169 16,205 14,507 15,400 16,800 19,000 20,198 18,573 19,375 21,032 23,250 25,219 28,549 29,759 28,262 28,506 33,885 34,776 35,347 34,628 33,043 30,214 31,013 31,496 34,115 33,433 34,198 35,863 37,789 34,561 36,434 34,371 …

1
ARIMA順序の定義に関する問題
これは長い投稿なので、あなたが私と一緒に耐えられることを願っています、そして私が間違っているところで私を修正してください。 私の目標は、3週間または4週間の履歴データに基づいて毎日の予測を作成することです。 データは、変圧器ラインの1つのローカル負荷の15分のデータです。季節のARIMAプロセスのモデル次数を見つけるのに問題があります。電力需要の時系列を考慮します。 元の時系列http://i.share.pho.to/80d86574_l.png 最初の3週間をサブセットとして取得し、差を付けると、次のACF / PACFプロットが計算されます。 サブセットhttp://i.share.pho.to/5c165aef_l.png 最初の違いhttp://i.share.pho.to/b7300cc2_l.png 季節的な違いと最初の違いhttp://i.share.pho.to/570c5397_l.png これは、シリーズが少し静止しているように見えます。しかし、季節性は週単位でもあります(季節差の週と2次の差[こちら] http://share.pho.to/3owoqをご覧ください。) したがって、モデルは次の形を取ると結論付けましょう: A R IMA (p 、1 、q)(P、1 、Q )96AR私MA(p、1、q)(P、1、Q)96 ARIMA(p,1,q)(P,1,Q)_{96} 最後の図では、ラグ96での明確なスパイクは、季節的なMA(1)コンポーネントを示しています(PACFにも明確なスパイクがあるので、AR(1)も同様である可能性があります)。ラグ1:4のスパイクは、PACFの指数関数的な減衰に対応するMA(4)コンポーネントを示しています。したがって、手動で選択される初期モデルは次のようになります withA R IMA (0 、1 、4 )(0 、1 、1 )96AR私MA(0、1、4)(0、1、1)96 ARIMA(0,1,4)(0,1,1)_{96} Series: x ARIMA(0,1,4)(0,1,1)[96] Coefficients: ma1 ma2 ma3 ma4 sma1 -0.2187 -0.2233 -0.0996 -0.0983 -0.9796 s.e. 0.0231 …

1
短い多変量時系列を予測する最も愚かな方法
29番目の時間単位について、次の4つの変数を予測する必要があります。約2年分の履歴データがあります。1と14と27はすべて同じ期間(または時期)です。最後に、私は、、、および Oaxaca-Blinderスタイルの分解を行っています。w d w c pWWWwdwdwdwcwcwcppp time W wd wc p 1 4.920725 4.684342 4.065288 .5962985 2 4.956172 4.73998 4.092179 .6151785 3 4.85532 4.725982 4.002519 .6028712 4 4.754887 4.674568 3.988028 .5943888 5 4.862039 4.758899 4.045568 .5925704 6 5.039032 4.791101 4.071131 .590314 7 4.612594 4.656253 4.136271 .529247 8 4.722339 4.631588 3.994956 …

2
予測のためのニューラルネットワークの概要
時系列予測にニューラルネットワークを使用するには、いくつかのリソースが必要です。私はいくつかの論文を実装し、彼らが彼らの方法の可能性を大いに表明していることを知ることに警戒しています。そのため、これらのメソッドの経験がある場合は、さらに素晴らしいことを提案しています。

2
ACFおよびPACF検査によるARMA係数の推定
ACFプロットとPACFプロットの目視検査により、時系列の適切な予測モデルをどのように推定しますか?どちらがARまたはMAに通知しますか(つまり、ACFまたはPACF)(または、両方とも)。グラフのどの部分が、季節性ARIMAの季節的および非季節的部分を示していますか? 以下に表示されるACFおよびPCF機能を検討してください。それらは、単純な差異と季節(元のデータ、対数変換されたデータ)の2つの差異がある2つのログ変換された系列からのものです。シリーズをどのように特徴付けますか?どのモデルが最適ですか?

3
欠損値や不規則な時系列でR予測パッケージを使用する
R forecastパッケージ、zooおよび不規則な時系列や欠損値の補間などのパッケージに感銘を受けました。 私のアプリケーションはコールセンターのトラフィック予測の領域にあるため、週末のデータは常に(ほぼ)欠落していzooます。これはでうまく処理できます。また、いくつかの離散ポイントが欠落している可能性がありますNA。そのためにRを使用しています。 事ある次のような予測パッケージ、すべての素敵な魔法eta()、auto.arima()など、平野期待しているように見えるts物体は、つまりは、欠落したデータを含まない時系列を等間隔。等間隔のみの時系列の実世界のアプリケーションは確かに存在すると思いますが、-私の意見では-非常に限られています。 少数の離散の問題NA値が容易に提供される補間関数のいずれかを使用することによって解決することができるzooだけでなくによってforecast::interp。その後、予測を実行します。 私の質問: 誰かがより良い解決策を提案していますか? (私の主な質問)少なくとも私のアプリケーションドメイン、コールセンターのトラフィック予測(および他のほとんどの問題ドメインを想像できる限り)では、時系列は等間隔ではありません。少なくとも、定期的な「営業日」スキームなどがあります。それを処理し、予測パッケージのすべてのクールな魔法を使用する最良の方法は何ですか? 週末を埋めるために時系列を「圧縮」し、予測を実行してから、週末にNA値を再挿入するためにデータを再度「膨らませ」ますか?(それは残念だと思いますか?) 予測パッケージを、動物園やそのような不規則な時系列パッケージと完全に互換させる計画はありますか?はいの場合、いつ、いいえの場合、なぜですか? 私は予測(および統計全般)が初めてなので、重要なことを見落とす可能性があります。

5
「サンプル内」と「サンプル外」の予測の違いは何ですか?
「サンプル内」予測と「サンプル外」予測の違いは正確にはわかりませんか?サンプル内予測では、利用可能なデータのサブセットを使用して、推定期間外の値を予測します。代わりに、サンプルの予測では利用可能なすべてのデータを使用します これらは正しいですか? 非常に具体的には、次の定義は正しいですか? サンプル内予測では、利用可能なデータのサブセットを使用して、推定期間外の値を予測し、対応する既知の結果または実際の結果と比較します。これは、既知の値を予測するモデルの能力を評価するために行われます。たとえば、1980年から2015年までのサンプル内予測では、1980年から2012年までのデータを使用してモデルを推定できます。このモデルを使用して、予測者は2013-2015年の値を予測し、予測値を実際の既知の値と比較します。代わりに、サンプル外予測では、サンプル内の使用可能なすべてのデータを使用してモデルを推定します。前の例では、推定は1980〜2015年に実行され、予測は2016年に開始されます。

1
厳密に肯定的な予測を達成する方法は?
私は値が厳密に正である時系列に取り組んでいます。AR、MA、ARMAなどのさまざまなモデルを使用して、厳密に肯定的な予測を達成する簡単な方法を見つけることができませんでした。 私は予測を行うためにRを使用していますが、見つけることができるのは、以下に説明されている正のパラメーターを持つpredict.hts {hts}だけです。 階層的またはグループ化された時系列、パッケージhtsを予測する ## S3 method for class 'gts': forecast((object, h, method = c("comb", "bu", "mo", "tdgsf", "tdgsa", "tdfp", "all"), fmethod = c("ets", "rw", "arima"), level, positive = FALSE, xreg = NULL, newxreg = NULL, ...)) positive If TRUE, forecasts are forced to be strictly positive http://www.inside-r.org/packages/cran/hts/docs/forecast.gts 非階層的時系列に関する提案はありますか?最小、最大などのような他の制約の使用に関する一般化についてはどうですか? Rで実装されていなくても、記事、モデル、または有用な一般的な変数変換に関する提案を歓迎します。

2
手作業によるARIMA推定
ARIMAモデリング/ Box Jenkins(BJ)でパラメーターがどのように推定されるかを理解しようとしています。残念ながら、私が遭遇した本のいずれも、対数尤度推定手順などの推定手順を詳細に説明していません。私は非常に役立つウェブサイト/教材を見つけました。以下は、上記のソースからの方程式です。 L L (θ )= − n2ログ(2 π)− n2ログ(σ2)− ∑t = 1ne2t2つのσ2LL(θ)=−n2ログ⁡(2π)−n2ログ⁡(σ2)−∑t=1net22σ2 LL(\theta)=-\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \sum\limits_{t=1}^n\frac{e_t^2}{2\sigma^2} 自分でARIMA / BJの推定を学びたいです。そこで、を使用して手作業でARMAを推定するコードを記述しました。以下は私がRでやったことです、RRRRRR ARMAをシミュレートしました(1,1) 上記の方程式を関数として書きました シミュレートされたデータと最適関数を使用して、ARおよびMAパラメーターを推定しました。 また、statsパッケージでARIMAを実行し、ARMAパラメーターを手作業で行ったものと比較しました。 以下は比較です: **以下は私の質問です: 推定変数と計算変数の間にわずかな違いがあるのはなぜですか? ARIMAはRバックキャストで機能しますか、または推定手順はコードで以下に概説されているものとは異なりますか? 観測1でe1またはエラーを0として割り当てましたが、これは正しいですか? また、最適化のヘッセ行列を使用して予測の信頼限界を推定する方法はありますか? いつものようにあなたの助けに感謝します。 コードは次のとおりです。 ## Load Packages library(stats) library(forecast) set.seed(456) ## Simulate Arima y <- arima.sim(n = 250, list(ar = …

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
日次データを使用した時系列予測:リグレッサーを使用したARIMA
私は、約2年間の毎日のデータポイントを含む販売データの毎日の時系列を使用しています。いくつかのオンラインチュートリアル/例に基づいて、データの季節性を特定しようとしました。毎週、毎月、そしておそらく毎年の周期性/季節性があるようです。 たとえば、特に月の最初の給料日には、週の数日間続く給料日があります。また、いくつかの特定の休日の影響もあり、観測に注目することで明確に識別できます。 これらの観察のいくつかを装備して、私は次を試みました: (持つARIMA Arimaとauto.arima回帰(及び機能に必要な他のデフォルト値)を用いてR-予測パッケージから)。私が作成したリグレッサーは、基本的に0/1値のマトリックスです。 11か月(n-1)変数 12の休日変数 給料日の部分を理解できませんでした...それは思ったよりも少し複雑な効果だからです。給料日の効果は、月の1日の平日によって異なります。 時系列をモデル化するために7(つまり、週ごとの頻度)を使用しました。テストを試してみました-一度に7日間予測します。結果は合理的です。11週間の予測の平均精度は、週平均5%のRMSEになります。 TBATSモデル(R予測パッケージから)-複数の季節性(7、30.4375、365.25)を使用し、明らかにリグレッサーなし。週平均RMSE 3.5%では、精度はARIMAモデルよりも驚くほど優れています。 この場合、ARMAエラーのないモデルのパフォーマンスはわずかに向上します。#1で説明したARIMAモデルのHoliday Effectsの係数のみをTBATSモデルの結果に適用すると、週平均RMSEは2.95%に向上します 現在、これらのモデルの基礎理論に関する多くの背景や知識がなくても、このTBATSアプローチが有効なものであるかどうかはジレンマに陥っています。11週間のテストでRMSEを大幅に改善していますが、将来この精度を維持できるかどうか疑問に思っています。または、ARIMAからTBATSの結果にホリデー効果を適用することは正当化できます。すべての貢献者からのどんな考えでも高く評価されます。 テストデータのリンク 注:ファイルをダウンロードするには、「名前を付けてリンクを保存」を実行します。

3
別の指標(MSEなど)ではなく、特定の予測誤差(MADなど)を使用するのはなぜですか?
MAD =平均絶対偏差MSE =平均二乗誤差 いくつかの望ましくない品質にもかかわらずMSEが使用されるというさまざまな場所からの提案を見てきました(例:http: //www.stat.nus.edu.sg/~staxyc/T12.pdf、p8に「MAD MSEよりも優れた基準です。ただし、数学的にMSEはMADよりも便利です。」 それ以上のものはありますか?予測誤差を測定するさまざまな方法が多かれ少なかれ適切である状況を徹底的に分析する論文はありますか?私のグーグル検索では何も明らかにされていません。 これと同様の質問が/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sdeで尋ねられ、ユーザーはstats.stackexchange.comに投稿しますが、私は彼らがこれまで行ったことはないと思います。
15 forecasting  error  mse  mae 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.