タグ付けされた質問 「forecasting」

将来のイベントの予測。これは、[時系列]のコンテキストでは、[予測]の特殊なケースです。

5
時系列データ予測で検出された外れ値を修正するにはどうすればよいですか?
時系列データで異常値を見つけて検出したら、異常値を修正する方法を見つけようとしています。Rのnnetarのようないくつかのメソッドは、大きな/大きな外れ値を持つ時系列にいくつかのエラーを与えます。私はすでに欠損値を修正することができましたが、外れ値は私の予測にまだ悪影響を及ぼしています...

3
外部変数を使用した時系列データの予測
現在、時系列データ(月次データ)の予測を行うプロジェクトに取り組んでいます。私はRを使用して予測を行っています。1つの従属変数(y)と3つの独立変数(x1、x2、x3)があります。y変数には73個の観測値があり、他の3個の変数にもあります(alos 73)。2009年1月から2015年1月まで。相関とp値を確認しましたが、モデルに入れることはすべて重要です。私の質問は、どのようにすればすべての独立変数を使用して適切な予測を行うことができますか?これらの変数の将来の値はありません。2年後(2017年)のy変数を予測したいとします。これどうやってするの? 私は次のコードを試しました: model = arima(y, order(0,2,0), xreg = externaldata) このコードで2年間のy値の予測を行うことはできますか? 私は回帰コードも試しました: reg = lm(y ~ x1 + x2 + x3) しかし、このコードでどのように時間をかけますか?yの値が2年になると予測するにはどうすればよいですか?統計と予測は初めてです。いくつかの読み取りを行ってラグ値をカムしていますが、モデルでラグ値を使用して予測を行うにはどうすればよいですか? 実際、私の全体的な質問は、将来の値がない外部変数を含む時系列データをどのように予測できるかということです。


2
時系列相互検証からの最終モデル
モデル調整のための「通常の」K分割交差検証の経験があり、時系列モデルのアプリケーションに少し混乱しています。 時系列モデルの場合、相互検証の当然の結果は、Hyndmanによって記述された「ローリングフォワードオリジン」手順であることが私の理解です。これは私には十分に理にかなっており、以下のコードtsCVは、HydmanのブログからのR での関数の使用を示し、エラーがCVとデータセット全体とで一度にどのように異なるかを示しています。 library(fpp) e <- tsCV(dj, rwf, drift=TRUE, h=1) sqrt(mean(e^2, na.rm=TRUE)) ## [1] 22.68249 sqrt(mean(residuals(rwf(dj, drift=TRUE))^2, na.rm=TRUE)) ## [1] 22.49681 さて、上記のリンクでは、ドリフトパラメータが新しい予測の起点ごとに再推定されると述べています。「通常の」CVでは、使用する最適なパラメーターを決定するために平均を取得できるように、各フォールドに対して評価するパラメーターのグリッドを用意します。次に、これらの「最適な」パラメーターを使用して完全なトレーニングセットに適合させ、それを私の最終モデルとして使用して、以前に実施したテストセットを評価します。これは入れ子の交差検証であるため、どの時点でもテストセットのトレーニングは行っていません。 これは明らかに「ローリング・フォワード起源」プロシージャの場合ではないパラメータが各折り目のために最適化された(のようなR法のための少なくともbats、tbats、auto.arima、など)。モデルパラメーターの調整に関してこの方法を誤解しているのでしょうか、または使用される最終モデルに設定する時系列モデルパラメーターをどのように選択するのですか?または、パラメーターの調整は、最適化がモデルのフィッティングの一部であると思われる時系列モデルの問題を考慮せず、CVの結果は、各モデルの全体的なパフォーマンスを示すだけです。そして、最後に大部分のデータを使用して構築された最終的なモデルは、私が使用するモデルですか? これはもっと簡単な質問に言い換えることができると思います。クロス検証(「ローリングフォワードオリジン」)の後、最後に作成されたモデル(最大のスーパーセットを最終的なフィットモデルとして)を使用するだけですか?または、何を提案しますか?

3
機械学習を使用した複数の期間の予測
私は最近、時系列の知識を要約しましたが、機械学習はほとんど一歩先の予測しか与えないことに気付きました。 一段先の予測我々は時間単位のデータを持っている場合は、午前12時などの予測午前11時と11時まで午前10時からのデータを使用して、例えば、I平均予測 機械学習の方法でh-steps-aheadの予測を作成できますか?h-step-ahead予測では、たとえば、毎時のデータを想定して、午前10時からのデータを使用して7-step-ahead予測を行い、11、12、13、14、15、16、17の推定値を取得します。 o時計。 写真の例: 私の主な質問に関連して私は思います: h-ahead-ahead予測を行うために機械学習を使用している人を見かけない理由は何ですか? 機械学習を使用する方法がある場合、それはARIMAよりも正確ですか?

1
ARIMAモデルの周期的動作の条件
私は季節ではなく周期的な時系列をモデル化して予測しようとしています(つまり、季節に似たパターンがありますが、一定の期間ではありません)。これは、予測のセクション8.5で説明されているように、ARIMAモデルを使用して実行できるはずです。 データがサイクルを示す場合、の値は重要です。環状の予測を得るために、有することが必要であるP ≥ 2のパラメータのいくつかの追加の条件と一緒。AR(2)モデルの場合、サイクリック動作は、場合に発生φ 2 1 + 4 φ 2 &lt; 0。pppp≥2p≥2p\geq 2ϕ21+4ϕ2&lt;0ϕ12+4ϕ2&lt;0\phi^2_1+4\phi_2<0 一般的なARIMA(p、d、q)の場合のパラメーターのこれらの追加条件は何ですか?私はどこにもそれらを見つけることができませんでした。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
バイアス分散分解:予測二乗予測誤差の項で、既約誤差が少ない
ハスティら "統計的学習の要素"(2009)データ生成処理考える とE(ε )= 0とヴァー(ε )= σ 2 εを。Y=f(X)+εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} それらは、点での予想二乗予測誤差の次のバイアス分散分解を示します(p。223、式7.9): Err (x 0)x0x0x_0 私自身の仕事で、私は指定されていない Fを(⋅)が、任意の予測取る yは(これが関連している場合)の代わりに。質問:バイアス2+分散 、より正確には Err(x0)-既約エラーの用語を探してい ます。Err(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) …

4
このバイナリ予測問題にどのように取り組むべきですか?
次の形式のデータセットがあります。 二元的転帰がん/がんなしがあります。データセット内のすべての医師は、すべての患者を診察し、患者ががんであるかどうかについて独立した判断を下しています。医師は、自分の診断が正しいことを5のうちの信頼レベルで示し、括弧内に信頼レベルが表示されます。 このデータセットから適切な予測を取得するために、さまざまな方法を試しました。 医師の信頼水準を無視して、医師全体の平均をとることは、私にとってはかなりうまくいきます。上の表では、患者1と患者2に対して正しい診断が得られますが、患者3が癌であると誤って言っているはずです。 2人の医師を無作為に抽出する方法も試しました。2人の医師が互いに同意しない場合は、どちらがより自信がある医師に決定票が投じられます。この方法は、多くの医師に相談する必要がないという点で経済的ですが、エラー率もかなり高くなります。 私は2人の医師をランダムに選択する関連する方法を試しました。彼らが互いに同意しない場合は、さらに2人の医師をランダムに選択します。1つの診断が少なくとも2つの「投票」で進んでいる場合、その診断を支持して解決します。そうでない場合は、より多くの医師をサンプリングし続けます。この方法はかなり経済的で、あまりミスをしません。 もっと洗練されたやり方が足りないと感じて仕方がありません。たとえば、データセットをトレーニングセットとテストセットに分割し、診断を組み合わせるための最適な方法を考え出して、それらの重みがテストセットでどのように機能するかを確認できる方法があるかどうか疑問に思います。1つの可能性は、試験セットで間違いを犯し続けた医師の体重を減らし、おそらく自信を持って行われた診断の体重を増やすことのできるある種の方法です(信頼度はこのデータセットの正確さと相関します)。 私はこの一般的な説明に一致するさまざまなデータセットを持っているので、サンプルサイズは異なり、すべてのデータセットが医師/患者に関連しているわけではありません。ただし、この特定のデータセットには40人の医師がおり、それぞれ108人の患者を診察しています。 編集:これは、 @ jeremy-milesの回答を読んで得られた重みの一部へのリンクです。 重み付けされていない結果は最初の列にあります。実際、このデータセットでは、最大の信頼値は4でした。これは先ほど間違って言った5ではありません。したがって、@ jeremy-milesのアプローチに従うと、どの患者も加重されていない最も高いスコアは7になります。つまり、文字通りすべての医師が、その患者ががんであるという信頼レベル4を主張しました。患者が得ることができる最低の加重されていないスコアは0です。これは、すべての医師がその患者に癌がなかったことを信頼レベル4で主張したことを意味します。 α=KK−1(1−∑σ2xiσ2T)α=KK−1(1−∑σxi2σT2)\alpha = \frac{K}{K-1}\left(1-\frac{\sum \sigma^2_{x_i}}{\sigma^2_T}\right)KKK∑σ2xi∑σxi2\sum \sigma^2_{x_i}σ2TσT2\sigma^2_Tα=4040−1(1−8.7915200.7112)=0.9807α=4040−1(1−8.7915200.7112)=0.9807\alpha = \frac{40}{40-1}\left(1-\frac{8.7915}{200.7112}\right)=0.9807 合計アイテム相関による重み付け。すべてのアイテムの相関関係をすべて計算し、相関関係のサイズに比例して各医師に重みを付けます。 回帰係数による重み付け。 私がまだ確信が持てないことの1つは、どの方法が他の方法よりも「優れている」かを言う方法です。以前は、パーススキルスコアなどの計算を行っていました。これは、バイナリ予測とバイナリ結果があるインスタンスに適しています。しかし、今では0から1ではなく0から7の範囲の予測があります。すべての加重スコア&gt; 3.50から1、およびすべての加重スコア&lt;3.50から0に変換する必要がありますか?

1
VARモデルが定常データよりも非定常データでうまく機能するのはなぜですか?
pythonのstatsmodels VARライブラリを使用して財務時系列データをモデル化していますが、いくつかの結果に戸惑いました。VARモデルは時系列データが定常的であることを前提としています。不注意に2つの異なる証券の非定常シリーズの対数価格を当てはめましたが、驚くべきことに、当てはめられた値とサンプル内予測は、比較的重要ではない定常残差で非常に正確でした。サンプル内予測のは99%で、予測残差シリーズの標準偏差は予測値の約10%でした。R2R2R^2 ただし、対数価格を比較し、その時系列をVARモデルに当てはめると、当てはめ値と予測値はマークから大きく外れ、平均の周りの狭い範囲で跳ね返ります。その結果、残差は、近似値よりもログの戻りを予測する仕事がうまくいきます。予測残差の標準偏差は、近似データ系列よりも15倍大きく、予測系列の.007値です。R2R2R^2 VARモデルの適合対残差を誤って解釈したり、他のエラーを起こしたりしていませんか?非定常時系列は、同じ基礎データに基づく定常時系列よりも正確な予測になるのはなぜですか?私は同じpythonライブラリのARMAモデルを少し使ってみましたが、この単一のシリーズデータのモデリングのようなものは何もありませんでした。

1
ARIMAとLSTMを使用した時系列予測
私が扱っている問題は、時系列値を予測することです。一度に1つの時系列を見ていて、たとえば入力データの15%に基づいて、将来の値を予測したいと思います。これまでのところ、2つのモデルに出会いました。 LSTM(長期短期記憶;再帰型ニューラルネットワークのクラス) 有馬 私は両方を試し、それらに関するいくつかの記事を読みました。現在、私はこの2つを比較する方法について理解を深めようとしています。これまでに見つけたもの: 大量のデータを処理し、十分なトレーニングデータが利用可能な場合、LSTMは適切に機能しますが、ARIMAは小さなデータセットに適しています(これは正しいですか?) ARIMAでは(p,q,d)データに基づいて計算する必要がある一連のパラメーターが必要ですが、LSTMではそのようなパラメーターを設定する必要はありません。ただし、LSTMを調整する必要があるいくつかのハイパーパラメーターがあります。 上記の特性以外に、最良のモデルを選択するのに役立つポイントや事実は見つかりませんでした。誰かが記事、論文、またはその他のものを見つけるのを手伝ってくれる人がいてくれたら本当にありがたいです(これまでのところ運が悪く、あちこちにいくつかの一般的な意見だけがあり、実験に基づくものはありません)。 元々はストリーミングデータを扱っていることを述べなければなりませんが、今のところ、最大サイズが20kデータポイントの50個のデータセットを含むNABデータセットを使用しています。

2
tsoutliersパッケージとauto.arimaを使用して予測を解釈および実行する方法
1993年から2015年までの月次データがあり、これらのデータを予測したいと思います。私はtsoutliersパッケージを使用して外れ値を検出しましたが、自分のデータセットを使用して予測を続行する方法がわかりません。 これは私のコードです: product.outlier&lt;-tso(product,types=c("AO","LS","TC")) plot(product.outlier) これはtsoutliersパッケージからの私の出力です ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 TC133 LS181 AO183 AO184 LS185 TC186 TC193 TC200 0.1700 0.4316 0.6166 0.5793 -0.5127 0.5422 0.5138 0.9264 3.0762 0.5688 -0.4775 -0.4386 s.e. 0.0768 0.1109 0.1105 0.1106 0.1021 0.1120 0.1119 0.1567 0.1918 0.1037 0.1033 0.1040 LS207 AO237 TC248 AO260 AO266 0.4228 …

3
予測モデルの伝達​​関数-解釈
私はARIMAモデリングに夢中になっていて、プロモーションモデリングの目的で外因性変数が追加されており、ビジネスユーザーに説明するのに苦労しています。場合によっては、ソフトウェアパッケージは単純な伝達関数、つまりパラメーター*外生変数で終わることがあります。この場合、解釈は簡単です。つまり、プロモーションアクティビティX(外因性のバイナリ変数で表されます)は、従属変数(たとえば、需要)にYの量で影響します。したがって、ビジネス用語では、プロモーション活動XはYユニットによる需要の増加をもたらすと言えます。 伝達関数がより複雑になる場合があります。たとえば、多項式*外生変数の除算です。私ができることは、すべての動的回帰係数を見つけるために多項式の除算を行い、たとえば、プロモーション活動は、それが発生する期間中の需要だけでなく、将来の期間にも影響を与えると言うことです。しかし、ソフトウェアパッケージは多項式の除算として出力伝達関数を出力するため、ビジネスユーザーは直感的な解釈を行うことができません。除算せずに複雑な伝達関数について言えることはありますか? 関連するモデルのパラメータと関連する伝達関数を以下に示します。 定数= 4200、AR(1)、プロモーション活動係数30、Num1 = -15、Num2 = 1.62、Den1 = 0.25 ですから、この期間にプロモーション活動を行うと、需要のレベルが30単位増えると思います。また、伝達関数(多項式の除算)が存在するため、プロモーション活動は現在の期間だけでなく、その後の期間にも影響を与えます。問題は、プロモーションの影響を受ける将来の期間の数と、需要単位での期間あたりの影響をどのように見つけることができるかです。

4
予測精度の計算
時系列データの予測にはSTL(R実装)を使用しています。 私たちは毎日、毎日の予測を実行しています。予測値と実際の値を比較して、平均偏差を特定します。たとえば、明日の予測を実行して予測ポイントを取得した場合、これらの予測ポイントを、明日取得する実際のデータと比較します。私は、予測値と実際のデータがほとんどの場合一致しない場合があることを認識しています。これが、私たちが毎日どれだけ正確であるかを追跡したい理由の1つです。 今、私たちはこの問題を解決するための最良のアプローチは何かを特定しようとしていますか?ヘルプポインタをいただければ幸いです。 私が見て、予測精度の質問を測定するが、それはモデルを比較するのではなく実際の値と精度を計算に関係しているようです。 Rでの精度関数の実装を調べましたが、2つの質問と混同されていました。 1)チュートリアルのほとんどが「テストデータ」対「予測データ」と言っているため、実際のデータと予測データで機能しますか 2)精度関数の出力は、偏差の%ではなく値の配列です。

1
売上予測のためのユニークな(?)アイデア
製品の総売上を予測するモデルの開発に取り組んでいます。約1年半の予約データがあるので、標準の時系列分析を行うことができました。ただし、クローズされたか失われた各「機会」(販売の可能性)に関するデータもたくさんあります。「商談」は、パイプラインのステージに沿って、閉じられるか失われるまで進行します。また、見込み客、営業担当者、インタラクション履歴、業界、予約の推定サイズなどに関するデータも関連付けられています。 私の目標は最終的には総予約数を予測することですが、予約の真の「根本原因」である現在の「機会」に関するこの情報をすべて考慮したいと思います。 私の考えの1つは、次のように2つの異なるモデルを連続して使用することです。 過去の「機会」を使用して、個々の「機会」から生じる予約を予測するモデルを構築します(おそらく、このステップでは、ランダムフォレストまたは単純な古い線形回帰を使用します)。 1からのモデルを使用して、現在パイプラインにあるすべての「機会」の推定予約を予測し、各「機会」が作成された月に基づいてそれらの推定を合計します。 時系列モデル(おそらくARIMA?)を使用し、1.5年間の月次履歴時系列データと、その月に作成されたすべての「機会」の予測(1のモデルを使用)合計予約を使用します。 実際の予約に変換するこれらの機会には遅れがあると考えられますが、時系列モデルはその遅れに対処できるはずです。 この音はどうですか?私は時系列についてたくさん読んだり、売り上げを予測したりしていますが、これからわか​​るのは、これはややユニークなアプローチです。したがって、私は本当にフィードバックをいただければ幸いです!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.