タグ付けされた質問 「forecasting」

将来のイベントの予測。これは、[時系列]のコンテキストでは、[予測]の特殊なケースです。

3
時系列でのAIC対クロス検証:小さなサンプルの場合
時系列設定でのモデル選択に興味があります。具体的には、ラグオーダーが異なるARMAモデルのプールからARMAモデルを選択するとします。最終的な意図は予測です。 モデルの選択は次の方法で実行できます 相互検証、 情報基準の使用(AIC、BIC)、 他の方法の中で。 Rob J. Hyndmanは、時系列の相互検証を行う方法を提供します。比較的小さなサンプルの場合、クロス検証で使用されるサンプルサイズは、元のサンプルサイズと質的に異なる場合があります。たとえば、元のサンプルサイズが200の観測値である場合、最初の101の観測値を取得し、ウィンドウを102、103、...、200の観測値に拡張して100の交差検証結果を取得することにより、交差検証を開始することを考えることができます。明らかに、200回の観測に対して合理的に控えめなモデルは、100回の観測に対して大きすぎる可能性があり、そのため検証エラーは大きくなります。したがって、相互検証は、あまりにもpar約なモデルを体系的に優先する可能性があります。これは、サンプルサイズの不一致による望ましくない効果です。 相互検証の代わりに、モデル選択に情報基準を使用します。予測が重要なので、AICを使用します。AICは時系列モデルのサンプル外のワンステップ予測MSEを最小化することに漸近的に相当しますが(Rob J. Hyndmanによるこの投稿によると)、サンプルが私が気にするサイズはそれほど大きくありません... 質問:小規模/中規模サンプルの時系列相互検証よりもAICを選択する必要がありますか? 関連するいくつかの質問を見つけることができるここでは、こことここ。

1
複数の季節成分を含む時系列を分解する方法は?
2つの季節成分を含む時系列があり、その系列を次の時系列成分(トレンド、季節成分1、季節成分2、不規則成分)に分解したいと思います。私の知る限り、Rでシリーズを分解するためのSTL手順では、季節成分は1つしか許可されないため、シリーズを2回分解してみました。まず、次のコードを使用して、頻度を最初の季節成分に設定します。 ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") 次に、dec_1次のように頻度を2番目の季節成分に設定することにより、分解された系列の不規則成分()を分解しました。 ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") このアプローチには自信がありません。また、複数の季節性を持つシリーズを分解する他の方法があるかどうかを知りたいです。また、tbats()R 予測パッケージの関数を使用すると、複数の季節性を持つシリーズにモデルを適合させることができますが、それを使用してシリーズを分解する方法はわかりません。

2
平均絶対スケール誤差(MASE)の解釈
平均絶対誤差(MASE)は、Koehler&Hyndman(2006)によって提案された予測精度の尺度です。 MA SE= MA EMA Ei n − s a m p l e 、nは私のV EMASE=MAEMAE私n−sample、na私veMASE=\frac{MAE}{MAE_{in-sample, \, naive}} ここで、は実際の予測によって生成される平均絶対誤差です。 一方、は、サンプル内データで計算された単純な予測(統合された時系列の変化なし予測など)によって生成された平均絶対誤差です。M A E i n − s a m p l e 、MA EMAEMAE I(1)MA Ei n − s a m p l e 、nは私のV EMAE私n−sample、na私veMAE_{in-sample, \, naive}私(1 )私(1)I(1) (正確な定義と式については、Koehler&Hyndman(2006)の論文をご覧ください。) MA …

1
Rの線形モデルの新しい入力から値を予測するにはどうすればよいですか?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 R:で線形モデルを作成しましたmod = lm(train_y ~ train_x)。Xのリストを渡して、その予測/推定/予測Yを取得しpredict()たいのですが、それは何か他のもののためだと思うか、それを使用する方法がわかりません。 私は自分のモデルの係数を取ることで推測しているので、手動でtest_x変数をプラグインし、予測されたYを取得できますが、これを行うためのより効率的な方法があると推測しています。

6
天気予報は正確ですか?
しばらく私を悩ませた質問ですが、どのように対処するのかわかりません: 私の天気予報士は毎日、雨の確率をパーセントで示しています(9000桁と計算されたと仮定し、数字を繰り返したことはありません)。毎日、雨が降るか降らないかのどちらかです。 私は長年のデータを持っています-PCTチャンス対雨かどうか。この天気予報者の歴史を考えると、明日の雨の可能性がXであると彼が今夜言った場合、雨の可能性が実際に何であるかについての私の最良の推測は何ですか?

2
MAEを最小化すると、平均ではなく中央値が予測されるのはなぜですか?
予測:原則と実践は、ロブ・J HyndmanとジョージAthanasopoulos教科書、特に精度測定上のセクション: MAEを最小化する予測方法は中央値の予測につながり、RMSEを最小化すると平均の予測につながります MAEを最小化すると平均ではなく中央値が予測される理由を直感的に説明できますか?そして、これは実際には何を意味しますか? お客様に、「平均予測をより正確にする、または非常に不正確な予測を避けるために、あなたにとってより重要なことは何ですか?」と尋ねました。彼は、平均予報をより正確にするために、より高い優先度を持っていると言いました。したがって、この場合、MAEまたはRMSEを使用する必要がありますか?この引用を読む前に、私はMAEがそのような状態に良くなると信じていました。そして今、私は疑います。
19 forecasting  mean  median  rms  mae 

3
ガールフレンドが未来を伝えることができるかどうかを判断する方法(つまり、株価を予測する方法)
私のガールフレンドは最近、大手銀行で販売と取引をする仕事に就きました。彼女は新しい仕事に支えられて、今月末に株価がチャンスよりも上がるか下がるかを予測できると考えています(80%の精度でそれを行うことさえできると信じています!) 私は非常に懐疑的です。私たちは、彼女がいくつかの株を選択する実験を行うことに同意し、事前に決められた時間に、それらが上昇しているか下降しているかをチェックします。 私の質問はこれです。彼女が株を正確に予測できることを自信を持って伝えるのに十分な統計力を得るために、彼女は何株を選び、何株を正さなければなりませんか? たとえば、80%の精度で株を選ぶことを95%の確実性で伝えるために、何株を選ぶ必要がありますか? 編集:私たちが同意した実験では、彼女は株価が上昇または下降する量を予測する必要はありませんが、上昇または下降する場合のみです。

3
ネイトシルバーの予測の正確さをどのように判断できますか?
まず、彼は結果の確率を与えます。そのため、たとえば、米国の選挙に対する彼の予測は、現在クリントンが82%対トランプが18%です。 今、トランプが勝ったとしても、彼が勝ったはずの時間の18%だけではなかったことをどうやって知るのですか? もう1つの問題は、彼の確率が時間とともに変化することです。7月31日、トランプとクリントンの間はほぼ50対50でした。 私の質問は、彼は同じ結果で同じ将来のイベントに対して毎日異なる確率を持っていることを考えると、その日まで利用可能な情報に基づいて予測を行った毎日の正確さをどのように測定できますか?

3
カルマンフィルタリングでDLMを予測に使用する方法
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 8年前に移行され ました。 誰かが時系列のRでDLMカルマンフィルタリングを使用する方法の例を私に教えてくれますか?私はこれらの値を持っていると言います(年ごとの季節性を持つ四半期値); 次の値を予測するためにDLMをどのように使用しますか?ところで、十分な履歴データがありますか(最小値は何ですか)? 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 私はRコードの料理本スタイルのハウツーの段階的な答えを探しています。予測の正確さは私の主な目標ではありません。十分なデータがない場合でも、2011Q2の数字を与えるコードのシーケンスを学習したいだけです。

2
VAR予測方法
資産の価格を予測するためにVARモデルを構築していますが、私の方法が統計的に適切かどうか、含めたテストが関連するかどうか、入力変数に基づいて信頼できる予測を確保するためにさらに必要な場合は知りたいと思います。 以下は、グレンジャーの因果関係を確認し、選択したVARモデルを予測する現在のプロセスです。 require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference to achieve stationarity d.x1 …
19 r  forecasting  modeling  var 

1
モデル選択のパラドックス(AIC、BIC、説明するか予測するか?)
Galit Shmueliの「説明するか予測するか」(2010年)を読んで、私は明らかな矛盾に困惑しています。3つの施設がありますが、 AICベースとBICベースのモデル選択(p。300の終わり-p。301の始まり):簡単に言えば、AICは予測を目的としたモデルの選択に使用し、BICは説明用のモデルの選択に使用する必要があります。さらに(上記の論文ではありません)、いくつかの条件下では、BIC は候補モデルのセットの中から真のモデルを選択することを知っています。真のモデルは、説明的モデリングで求めているものです(p。293の終わり)。 単純な算術:AICは、サイズ8以上のサンプルに対してBICよりも大きなモデルを選択します AICとBICの複雑さのペナルティが異なるため、を満たし)。ln (n )> 2ln(n)>2\text{ln}(n)>2 「真」のモデル(すなわち、正しい説明変数と正しい機能的な形でモデルが、不完全推定された係数)は、予測のために最良のモデル(P 307)ではないかもしれない:行方不明の予測と回帰モデルは、より良い予測モデルもあり-予測子の欠落によるバイアスの導入は、推定の不正確さによる分散の減少によって相殺される場合があります。 ポイント1と2は、より節約的なモデルよりも大きなモデルの方が予測に適している可能性があることを示唆しています。一方、ポイント3は、より控えめなモデルのほうが大きなモデルよりも予測に適しているという反対の例を示しています。これは不可解です。 質問: ポイント間の明らかな矛盾{1。および2.}および3.説明/解決されますか? ポイント3に照らして、AICによって選択されたより大きなモデルが、BICによって選択されたよりpar約的なモデルよりも実際に予測に優れている理由と方法について直感的に説明できますか?

1
、予測期間にわたるシミュレーション
時系列データがあり、データを近似するモデルとしてを使用しました。どちらかである0(私はまれなイベントが表示されない場合)または1(Iは稀なイベントを参照してください)インジケータ確率変数です。についての以前の観察に基づいて、可変長マルコフ連鎖法を使用してモデルを開発できます。これにより、予測期間にわたってをシミュレートでき、ゼロと1のシーケンスが得られます。これはまれなイベントであるため、 頻繁に表示されません。シミュレーション値に基づいて予測間隔を予測および取得できます。 X t X t X t X t X t = 1 X tA R IMA (p 、d、q)+ XtARIMA(p,d,q)+XtARIMA(p,d,q)+X_tバツtXtX_tバツtXtX_tバツtXtX_tバツtXtX_tバツt= 1Xt=1X_t=1バツtXtX_t 質問: 予測期間にわたってシミュレートされた 1の発生を考慮に入れるための効率的なシミュレーション手順をどのように開発できますか?平均と予測間隔を取得する必要があります。 バツtXtX_t 1を観測する確率は小さすぎて、このケースでは通常のモンテカルロシミュレーションがうまく機能するとは考えられません。「重要度サンプリング」を使用できるかもしれませんが、どのように正確かはわかりません。 ありがとうございました。

2
時系列予測を自動化することは可能ですか?
任意の時系列を分析し、分析された時系列データに最適な従来/統計予測方法(およびそのパラメーター)を「自動的に」選択できるアルゴリズムを構築したいと思います。 このようなことをすることは可能でしょうか?はいの場合、これにどのようにアプローチできるかについてのヒントを教えてください。

1
Stepwise AIC-このトピックをめぐる論争は存在しますか?
このサイトで、p値ベース、AIC、BICなど、あらゆる種類の基準を使用した変数の段階的な選択の使用に信じられないほど多くの投稿を読みました。 これらの手順が一般に、変数の選択に非常に悪い理由を理解しています。ここでの gungのおそらく有名な投稿は、その理由を明確に示しています。最終的には、仮説を立てるのに使用したのと同じデータセットで仮説を検証しています。これは単なるデータのedです。さらに、p値は共線性や外れ値などの量の影響を受け、結果が大きく歪むなど。 しかし、私は最近かなり時系列の予測を研究しており、特にARIMAモデルの最適な順序を見つけるための段階的選択の使用について彼がここで言及している Hyndmanの評判の高い教科書に出会いました。実際、forecastR のパッケージでは、auto.arimaデフォルトで知られているよく知られているアルゴリズムは、(p値ではなくAICを使用して)ステップワイズ選択を使用します。彼はまた、このウェブサイト上の複数の投稿とうまく調和するp値ベースの機能選択を批判しています。 最終的に、目標が予測/予測の優れたモデルを開発することである場合、最後に何らかの方法で常に相互検証する必要があります。ただし、p値以外の評価指標の手順自体に関しては、これは多少不一致です。 この文脈での段階的なAICの使用について、しかしこの文脈からも一般的には誰も意見がありますか?私は、段階的な選択はどれも貧弱だと信じていると教えられてきましたが、正直なところ、auto.arima(stepwise = TRUE)サンプル結果からより良い結果を得ていますauto.arima(stepwise = FALSE)が、これは単なる偶然かもしれません。

5
データクリーニングは統計分析の結果を悪化させることがありますか?
ウイルスの循環(2002年の米国の西ナイルウイルスなど)または人々の抵抗の減少、食物や水の汚染の減少、または感染者蚊。これらの流行は、1〜5年ごとに発生する可能性のある外れ値として現れます。これらの外れ値を削除することにより、予測と病気の理解の重要な部分を形成する流行の証拠を削除しています。 流行によって引き起こされた外れ値に対処する際にデータクリーニングが必要ですか? 結果を改善するか、統計分析の結果を悪化させるか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.