アンサンブル時系列モデル


13

時系列予測を自動化する必要がありますが、それらの系列の機能(季節性、傾向、ノイズなど)を事前に知りません。

私の目的は、各シリーズに最適なモデルを取得することではなく、かなり悪いモデルを回避することです。言い換えれば、小さなエラーを毎回取得することは問題ではありませんが、大きなエラーを時々取得することは問題です。

異なる手法で計算されたモデルを組み合わせることで実現できると思いました。

つまり、ARIMAは特定のシリーズに最適なアプローチですが、別のシリーズには最適でない場合があります。指数平滑法についても同様です。

ただし、各手法の1つのモデルを組み合わせると、1つのモデルがそれほど良くなくても、もう1つのモデルが推定値を実際の値に近づけます。

ARIMAが長期の正常に動作するシリーズに適していることはよく知られていますが、指数平滑法は短期のノイズの多いシリーズで際立ちます。

  • 私のアイデアは、より堅牢な予測を得るために、両方の手法から生成されたモデルを組み合わせることです、それは理にかなっていますか?

これらのモデルを組み合わせるには多くの方法があるかもしれません。

  • これが良いアプローチである場合、それらをどのように組み合わせる必要がありますか?

予測の単純な平均はオプションですが、モデルの適切な尺度に従って平均に重みを付けると、より良い予測が得られる可能性があります。

  • モデルを組み合わせるときの分散の扱いは何ですか?

あなたのアイデアは素晴らしいように聞こえますが、自動的にフィットするARIMAモデルを使用することについてはよくわかりません。多変量シリーズの場合...多分、常識では、Holt-Wintersは自動的に使用されてかなり堅牢であるため、メソッド間のサンプル外比較のベースラインになる可能性があります。
Scortchi-モニカの回復

@Scortchi私はすべてのシリーズが一変量であることを言及するのを忘れていました!;)Holt-Wintersが自動的に使用されたときに本当に優れたパフォーマンスを発揮することに同意しますが、予測があまり良くない場合を避けるために、別のモデルからもう1つ意見を得るつもりです。HWが奇妙な傾向を示す場合があります。
ジョアンダニエル

1
一変量の場合でも、自動手順を想像するのに苦労します-傾向(確率的または決定論的)、考えられる変換、季節性(乗法的または相加的)について考えます。モデルに到達するには、多くの事前知識を使用します。特定のシリーズが実際に何を表すかについて、何が賢明であるかについて。それでも、プリンの証拠は食事にあります。私は、単純な手法でサンプル外の比較を行うことを忘れないように本当に言いたかっただけです。
Scortchi-モニカの回復

回答:


15

予測を組み合わせることは優れたアイデアです。(これが学術予報者が同意する数少ないものの1つであると言っても過言ではないと思います。)

しばらく前に、予測を重み付けするさまざまな方法を検討して論文を書いたことがあります。http//www.sciencedirect.com/science/article/pii/S0169207010001032基本的に、(赤池)重みを使用しても、組み合わせが一貫して改善されませんでした単純な、またはトリミングされた/ Winsorizedの手段または中央値を超えるため、明確な利点をもたらさない可能性のある複雑な手順を実装する前に、私は個人的に2度考えます(ただし、組み合わせは、情報基準による選択単一の方法を常に上回っていたことを思い出してください)。もちろん、これは特定の時系列によって異なります。

上記の論文では予測間隔の組み合わせに注目しましたが、分散の組み合わせ自体には注目しませんでした。私はこの点に注目してIJFにさほど戻っていない論文を思い出しているようです。そのため、IJFのバックナンバーを通して「結合」または「結合」を検索することをお勧めします。

予測を組み合わせて検討した他のいくつかの論文は、ここ(1989年からですが、レビュー)ここここ(密度も参照ここここです。これらの多くは、予測の組み合わせが単一の選択されたモデルを頻繁に上回っている理由がまだ十分に理解されていないことに注意しています。最後から2番目の論文はM3予測競争に関するものです。彼らの主な発見の1つは(p。458の番号(3))、「さまざまな方法の組み合わせの精度は、平均して、特定の方法が組み合わされており、他の方法と比べて優れている」というものでした。これらの最後のペーパーでは、組み合わせは必ずしも単一のモデルよりも優れているわけではありませんが、(目標の1つである)壊滅的な障害のリスクを大幅に削減できることがわかりました。より多くの文献が容易に見つかるはず予測の国際ジャーナル予測の雑誌 そして、計量経済学やサプライチェーンの文献におけるより具体的なアプリケーション。


1
モデルの組み合わせに関する素晴らしい視点!あなたの答えはとても建設的でした!
ジョアン・ダニエル

@Stephan Kolassa、ブルグの方法のように、前方予測子と後方予測子の組み合わせについてコメントはありますか?
denis

@denis:私は前方または後方予測子にも、またバーグの方法にも詳しくありません。申し訳ありません...予測/予測(別名アンサンブル法)を組み合わせることが通常は有益だと思います。
Stephan Kolassa、2015

こんにちはステファン、素晴らしい記事。ジャーナルサイトが変更されたようで、メインサイトからRコードをダウンロードできなくなっているようです。現在、別のサイトでホストしていますか?
Ian

@Ian:購読しないとアクセスできない場合があります。私にメールを送ってください(ここで私のアドレスを見つけてください)、スクリプトを送信します。それらを掘り下げるために私に数日を与えてください。
Stephan Kolassa、2015年

1

さらに指定しないのはなぜですか?あなたが作成するモデルが、特定の選択よりも優れていたり十分だったりすることはないと思います。

そうは言っても、テストできるものに少し選択を絞り込め、データ入力を標準化できるなら、Rで自動テスト手順を書いてみませんか?

データが5つのモデルと1つの「フォールバック」によって推定される範囲に収まると判断したとします。さまざまなテストによって入力を特徴付けることができるとしましょう。次に、先に進んで、これを実行するR(またはそのようなプログラム)アルゴリズムを作成します。これは、テストデータに基づいて実行するモデルのフローチャートを作成できる場合、つまり、意思決定ツリーのいずれかのポイントがバイナリである場合に機能します。

決定がバイナリではない可能性があるためにこれがオプションではない場合は、該当するテストに基づいて評価システムを実装し、グリッドを介していくつかの「極端なケース」のシミュレーションデータを実行して、目的の結果であるかどうかを確認することをお勧めします。

これらを明確に組み合わせることができます。たとえば、非定常性のテストでは、明確なはい/いいえが与えられ、他の属性は多重共線性などの範囲に分類される場合があります。
最初にこれを紙に描いてから構築し、予想される既知の分布でシミュレーションできます。

次に、新しいデータが到着するたびにRプログラムを実行します。いくつかのモデルを、手元にある可能性が最も高い計算機能と組み合わせる必要はないようです。


データが明らかに季節的である場合、非季節的方法を使用しないなど、選択肢を絞り込むことは良い考えです。しかし、それでも、複数の季節性モデル(加法性と乗法性の季節性、傾向の有無にかかわらず)を平均化すると、平均して予測精度が向上すると主張します。少なくともそれは、M3や同様の予報コンテストだけでなく予報コミュニティにもかなり触れたことから得られる印象です。
ステファンコラサ2013年

これに関する追加の論文はありますか?つまり、これは単純明快で関連性のある研究テーマになるでしょう。非常に興味深いアイデアですが、直感的には、モデルの動的グリッドよりも優れていることに必ずしも同意しません。
IMA 2013年

いい視点ね。私は私の回答を編集して、より多くの文献ポインタを含む追加の段落を含めました。これは簡単で関連性があることにも同意しますが、なぜ予測平均化によって通常精度が向上するのかはまだよくわかっていません。
ステファンコラサ2013年

ええ、私はあなたがあらゆる種類の分布問題をモデル化し、それを計算的にそして根本的に攻撃できることを意味します。論文をありがとう、とても興味深い。
IMA

0

2つの予測方法を組み合わせるための素晴らしくシンプルな式があり、最初にaを乗算し、もう1つに(1-a)を乗算するだけで重み付けします。両方の予測方法の誤差を知っているので、 "a"に依存する組み合わせの誤差を計算できます。各メソッドの平均が0の場合、計算は簡単です。2つ以上のメソッドを組み合わせる場合でも、数式を「手作業」で分析的に計算できるという意味では、数式は依然として「単純」です。または、EXCELのソルバーオプションも使用できます。


このメソッドを参照してください。
horaceT
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.