タグ付けされた質問 「forecasting」

将来のイベントの予測。これは、[時系列]のコンテキストでは、[予測]の特殊なケースです。

1
時系列予測のためのランダムフォレスト回帰
私は、製紙工場のパフォーマンスを予測するためにRF回帰を利用しようとしています。 私は、入力(木材パルプの速度と量など)と、マシンのパフォーマンス(生成された紙、マシンによって消費された電力)に関する分単位のデータを持ち、10分間の予測を求めています。パフォーマンス変数の先に。 12か月分のデータがあるので、トレーニングセット用に11か月、テスト用に最終月に分けました。 これまでに、パフォーマンス変数ごとに値が1〜10分遅れている10個の新しい機能を作成し、これらの機能と入力を使用して予測を行いました。テストセットのパフォーマンスは非常に良好です(システムはかなり予測可能です)が、アプローチに何か不足しているのではないかと心配しています。 たとえば、このペーパーでは、ランダムフォレストモデルの予測能力をテストする際のアプローチを次のように述べています。 シミュレーションは、新しい週のデータを繰り返し追加し、更新されたデータに基づいて新しいモデルをトレーニングし、翌週の大規模感染の数を予測することで続行されます。 これは、時系列の「後の」データをテストとして利用することとどう違うのですか?このアプローチとテストデータセットでRF回帰モデルを検証する必要がありますか?さらに、ランダムフォレスト回帰に対するこの種の「自己回帰」アプローチは時系列に有効ですか?将来10分の予測に興味がある場合、これだけ多くの遅延変数を作成する必要がありますか?

3
キャリブレーションの測定に最適なメトリックを選択するにはどうすればよいですか?
私はプログラミングし、テスト駆動開発を行います。コードに変更を加えた後、テストを実行します。成功することもあれば失敗することもあります。テストを実行する前に、テストが成功するという私の信任のために、0.01から0.99までの数字を書き留めます。 私のテストが成功するか失敗するかを予測することで、私が改善しているかどうかを知りたいです。また、テストが月曜日と金曜日のどちらで成功するかを予測するのが得意かどうかを追跡できるとよいでしょう。テストの成功を予測する私の能力が、追跡する他のメトリックと相関している場合は、知りたいです。 これにより、適切なメトリックを選択するタスクが残ります。SuperforcastingでPhilip Tetlockは、Brierスコアを使用して、専門家がどれだけうまく校正されているかを測定することを提案しています。文献で提案されているもう1つの指標は、対数スコアリングルールです。他の可能な候補者もいます。 使用するメトリックをどのように決定しますか?スコアリングルールを他のルールよりも優先することについての議論はありますか?


2
時系列の予測可能性を判断する方法は?
予測者が直面している重要な問題の1つは、特定の系列 を予測できるかどうかです。 Peter Cattによる「予測可能性の先験的指標としてのエントロピー」というタイトルの記事を偶然見つけました。この記事では、近似エントロピー(ApEn)を使用して 、所定の時系列を予測できる相対的な指標を決定しています。 記事は言う、 「ApEn値が小さいほど、一連のデータの後に類似データが続く可能性が高いことを示します(規則性)。逆に、ApEnの値が大きいほど、類似データが繰り返される可能性が低いことを示します(不規則性)。したがって、値が大きいほど、不規則性が高くなります。 、ランダム性、システムの複雑さ。」 そして、ApEnを計算するための数式が続きます。これは、相対的な意味で予測可能性を評価するために使用できる数値を提供するため、興味深いアプローチです。近似エントロピーの意味がわかりません。詳しく読んでいます。 呼ばれるパッケージがありpracmaにRそれはあなたがAPENを計算することができますが。説明のために、3つの異なる時系列を使用してApEn数を計算しました。 シリーズ1:有名なAirPassenger時系列-非常に確定的であり、簡単に予測できるはずです。 系列2:太陽黒点の時系列-非常に明確に定義されていますが、系列1よりも予測しにくいはずです。 シリーズ3:乱数このシリーズを予測する方法はありません。 したがって、ApEnを計算する場合、シリーズ1はシリーズ2よりも少なく、シリーズ3は非常に少ないはずです。 以下は、3つのシリーズすべてのApEnを計算するRスニペットです。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 これは私が期待したものではありません。ランダムシリーズは、明確に定義されたAirPassengerシリーズよりも数が少ないです。乱数を100に増やしても、明確に定義されたシリーズ2 / Sunspot.yealryシリーズよりも少ない次の結果が得られます。 > series3 <- approx_entropy(rnorm(1:100)) > series3 [1] …

4
ニューラルネットワーク、auto.arimaおよびetsを使用したR時系列予測
ニューラルネットワークを使用して時系列を予測することについて少し聞いたことがあります。 比較するにはどうすればよいですか?auto.arima(x)、ets(x)、またはnnetar(x)の時系列(日次小売データ)を予測する方法はどちらが優れていますか。 auto.arimaとetsをAICまたはBICで比較できます。しかし、どうすればニューラルネットワークと比較できますか? 例えば: > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, 1864, 2088, 2084, 594, 884, 1968, 1858, 1640, 1823, 1938, 1490, 1312, 2312, 1937, 1617, 1643, 1468, …

3
密度関数の予測
確率密度関数の時系列の予測について調査しています。過去に観測された(通常は推定された)PDFを与えられたPDFを予測することを目指しています。私たちが開発している予測方法は、シミュレーション研究でかなりうまく機能します。 ただし、この方法をさらに説明するには、実際のアプリケーションからの数値例が必要です。では、時系列のPDFが収集され、そのような時系列を予測することが重要で難しいアプリケーション(金融、経済学、生物学、工学など)に適切な例はありますか?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
ACFおよびPACFによる季節性の解釈
経験的直観で週ごとの季節性を期待する必要があると言うデータセットがあります(つまり、土曜日と日曜日の動作は他の週の動作とは異なります)。この前提が当てはまる場合、自己相関グラフから7のラグ倍数でバーストが発生しないはずです。 データのサンプルは次のとおりです。 data = TemporalData[{{{2012, 09, 28}, 19160768}, {{2012, 09, 19}, 19607936}, {{2012, 09, 08}, 7867456}, {{2012, 09, 15}, 11245024}, {{2012, 09, 04}, 0}, {{2012, 09, 21}, 24314496}, {{2012, 09, 12}, 11233632}, {{2012, 09, 03}, 9886496}, {{2012, 09, 09}, 9122272}, {{2012, 09, 24}, 23103456}, {{2012, 09, 20}, 25721472}, {{2012, 09, …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
不規則な間隔で集計されたデータに基づいて予測する方法は?
自動販売機での売上を予測してみます。問題は、マシンが不規則な間隔で充填されており、充填ごとに、マシンの最後の充填以降の総売上高しか記録できないことです(つまり、毎日の売上データはありません)。したがって、基本的には不定期に集計された売上のデータがあります。間隔は通常2日から3週間です。これは、1台の自動販売機と1つの製品のデータ例です。 27/02/2012 48 17/02/2012 24 09/02/2012 16 02/02/2012 7 25/01/2012 12 16/01/2012 16 05/01/2012 16 23/12/2011 4 16/12/2011 14 09/12/2011 4 02/12/2011 2 現在の単純なアルゴリズムは、過去90日間に販売された合計数量を90で割ることにより、1日あたりの平均売上を計算することです。 1日あたりの売上予測を改善する方法はありますか?次回のマシン訪問時に何が販売されるかを予測する必要があります。データの性質を考慮して、ある種の指数平滑アルゴリズムを使用することは可能ですか? 前もって感謝します! 更新:すべての回答とコメントをありがとうございます。もう少しコンテキストを説明してみましょう(質問の背後にあるビジネスケース-もちろん非常に単純化されています)。私たちは何百もの自動販売機を持っています。毎日、補充のために訪れる20人を決定する必要があります。そのために、マシンの現在のステータスを予測し、「空の」20マシンを選択しようとしています。各マシンと製品について、上記の単純なアルゴリズムを使用して1日あたりの平均売上(SPD)を計算しています。次に、SPDにマシンの最後の充填からの日数を掛けます。結果は予測販売量です。

8
過去の購入のデータから、どのアルゴリズムを使用して消耗品の使用を予測できますか?
おそらく単純だが興味深い問題について考えて、以前の購入の完全な履歴を踏まえて、近い将来に必要になる消耗品を予測するためのコードを書きたいと思います。この種の問題には、より一般的でよく研究された定義があるはずです(これがERPシステムなどのいくつかの概念に関連していると誰かが示唆しました)。 私が持っているデータは、以前の購入の完全な履歴です。私が紙の供給を見ているとしましょう、私のデータは(日付、シート)のようになります: 2007-05-10 500 2007-11-11 1000 2007-12-18 1000 2008-03-25 500 2008-05-28 2000 2008-10-31 1500 2009-03-20 1500 2009-06-30 1000 2009-09-29 500 2009-12-16 1500 2010-05-31 500 2010-06-30 500 2010-09-30 1500 2011-05-31 1000 定期的に「サンプリング」されないので、時系列データとしての資格はないと思います。 毎回の実際の在庫レベルに関するデータはありません。このシンプルで限られたデータを使用して、(たとえば)3、6、12か月で必要になる紙の量を予測します。 これまでのところ、私が探しているものは外挿と呼ばれ、それ以上ではないことがわかりました:) このような状況で使用できるアルゴリズムは何ですか? また、前のアルゴリズムと異なる場合、どのアルゴリズムが現在の供給レベルを示すいくつかのデータポイントを利用することもできますか(たとえば、日付XIにY枚の紙が残っていることがわかった場合)。 これについてより良い用語を知っている場合は、質問、タイトル、タグを自由に編集してください。 編集:それが価値があるもののために、私はこれをPythonでコーディングしようとしています。多かれ少なかれアルゴリズムを実装するライブラリがたくさんあることは知っています。この質問では、実際の実装は読者の練習問題として残して、使用できる概念と手法を探っていきたいと思います。

1
時系列予測を行う際の推奨事項
私は何カ月も短期的な負荷予測と精度を向上させるための気候/気象データの使用に取り組んできました。私はコンピューターサイエンスのバックグラウンドを持っているので、ARIMAモデルなどの統計ツールを使用して、大きな間違いや不当な比較を行わないようにしています。私はいくつかのことについてあなたの意見を知りたいです: (S)ARIMAモデルと(S)ARIMAXモデルの両方を使用して、気象データが予測に与える影響を調査していますが、指数平滑法も使用する必要があると思いますか? 最初の2週間から始めて、300サンプルの時系列の時系列があり、auto.arima R関数(予測パッケージ)で構築されたモデルを使用して5日間先の予測を実行します。次に、データセットに別のサンプルを追加し、モデルを再度キャリブレーションし、さらに5日間の予測を実行して、使用可能なデータが終わるまで続けます。この操作方法は正しいと思いますか? エンジニアリングジャーナルの記事をターゲットにしていますが、統計的な観点からできる限り厳密な作業を行いたいと思います。

3
データポイントの平均化による2つの時系列の結合
Mean Squared Prediction Errorを最小化することにより、時系列データセットの予測とバックキャスト(つまり過去の予測値)を1つの時系列に結合したいと思います。 2001年から2010年までの時系列があり、2007年のギャップがあるとします。2001年から2007年のデータ(赤い線と呼ばれ)を使用して2007年を予測し、2008年から2009年のデータ(水色)を使用してバックキャストすることができました。行と呼びます)。Y bYfYfY_fYbYbY_b とデータポイントを、されたデータポイントY_i に結合したいとます。理想的には、平均二乗予測誤差(MSPE)を最小にするような重みを取得したいと考えています。これが不可能な場合、2つの時系列のデータポイント間の平均をどのように見つけることができますか?Y b w Y iYfYfY_fYbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 簡単な例として: tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 …

1
計量経済学的手法の実際のアプリケーションの成功の文書化された/再現可能な例?
この質問は非常に広範に聞こえるかもしれませんが、ここで私が探しているものです。計量経済学的手法に関する優れた本や計量経済学的手法に関する優れた解説記事がたくさんあることは知っています。このCrossValidated 質問で説明されているように、計量経済学の再現可能な優れた例もあります。実際、この質問の例は、私が探しているものに非常に近いものです。これらの例で唯一欠けているのは、それらが調査レポートにすぎず、実際のアプリケーションでの調査結果の経緯についての言及がないことです。 私が探しているのは、理想的には次の特性を持つ計量経済理論の実際のアプリケーションの文書化された/再現可能な例です。 それらは再現可能である必要があります。つまり、データの詳細な説明(およびデータへのポインタ)、計量経済学的手法、およびコードが含まれている必要があります。コードはR言語であるのが理想的です。 十分に定量化された成功の測定基準に従って、技術が現実の世界で成功したことを示す詳細なドキュメントがあるはずです(たとえば、「この技術は需要の予測を改善することができ、ここに含まれる数があるため、収益の増加に役立ちました」)。 ここでは、計量経済学という用語をかなり広く使用しています。つまり、あらゆる種類のデータマイニング、統計データ分析、予測、予測、機械学習の手法を意味します。そのような例を見つける際の1つの差し迫った問題:計量経済学の多くの成功したアプリケーションは営利目的の設定で行われるため、独自のものであるため、手法がうまく機能した場合、おそらく公開されません(これは、独自の取引の場合に特に当てはまります)。ただし、(1)と(2)の両方ではないにしても、少なくとも上記(2)の特性を持つ例が公開されていることを期待しています。

3
時系列を集計してより意味のあるものにすることは有効ですか?
私からの時系列に関する別の質問。 私は、精神科病院での3年間にわたる暴力事件の毎日の記録を提供するデータセットを持っています。私の前の質問の助けを借りて、私はそれをいじっていて、今それについて少し幸せです。 私が今持っているのは、毎日のシリーズは非常にうるさいということです。それは、時々0から最大20まで、上下に大きく変動します。レスプロットと予測パッケージ(私のような初心者には強くお勧めします)を使用すると、予測から大規模な信頼区間を持つ、完全にフラットなラインが得られます。 ただし、毎週または毎月のデータを集計する方がはるかに理にかなっています。それらはシリーズの最初から下にスイープし、その後真ん中で再び増加します。レスプロットと予測パッケージはどちらも、より有意義に見えるものを生成します。 浮気みたいな感じがします。見栄えがよく、実際の妥当性がないため、集約されたバージョンを好むだけですか? または、移動平均を計算してそれを基礎として使用する方が良いでしょうか?何が受け入れられるかについて自信を持てるほど、この背後にある理論を十分に理解していないと思います

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.