短い時系列に最適な方法


35

短い時系列のモデリングに関連する質問があります。それらをモデル化するかどうかは問題ではなく、どのようにモデル化するかです。(非常に)短い時系列(長さ)をモデル化するには、どのような方法をお勧めしますか?「最高」とは、ここでは最も堅牢なものを意味します。つまり、観測数が限られているという事実によるエラーが最も起こりにくいものです。短いシリーズでは、単一の観測が予測に影響を与える可能性があるため、この方法は、予測に関連するエラーと可能性のある変動の慎重な推定値を提供する必要があります。私は一般に単変量時系列に興味がありますが、他の方法について知ることも興味深いでしょう。T20


時間単位は何ですか?データを投稿できますか?
Dimitriy V. Masterov

8
どのような仮定を立てても-季節性、定常性に関して&c。-短い時系列では、最も重大な違反のみを検出する機会が与えられます。そのため、前提はドメインの知識に基づいている必要があります。モデル化する必要がありますか、それとも予測を行うだけですか?M3競争はドメイン、のようないくつかの種々のシリーズの様々な「自動」予測方法を比較して短い20と
Scortchi -回復モニカ

5
@Scortchiのコメントへの+1。ちなみに、3,003 M3シリーズ(McompR のパッケージで利用可能)のうち、504の観測値は20以下であり、特に年間シリーズの55%です。したがって、元の出版物を調べて年次データで何がうまくいくかを確認できます。または、M3コンペティションに提出された元の予測を掘り下げることもできます。この予測は、Mcompパッケージ(リストM3Forecast)で入手できます。
S. Kolassa -復活モニカ

こんにちは、私は答えに何も追加しませんが、ここで他の人が問題を理解するのを助けることができる質問について何かを共有します:あなたが堅牢なものを言うとき、それは制限されているという事実のためにエラーが最も起こりにくいです観測数。堅牢性は統計の重要な概念であり、モデリングに適合するデータが非常に少ないため、モデル自体または外れ値の仮定に強く依存するため、ここで重要です。堅牢性を使用すると、この制約をより弱くし、結果を制限する仮定を許可しません。これがお役に立てば幸いです。
トンマーゾGuerrini

2
@TommasoGuerriniの堅牢なメソッドは、より少ない仮定を行うのではなく、異なる仮定を行います。
ティム

回答:


31

それは非常に多くの複雑な方法をアウトパフォームする「過去の平均を予測する」のような非常に簡単な予測方法のための共通。これは、短い時系列の場合にさらに発生します。はい、原則として、ARIMAまたはさらに複雑なモデルを20以下の観測に適合させることができますが、過剰適合し、非常に悪い予測を得る可能性がかなり高くなります。

そのため、単純なベンチマークから始めます。たとえば、

  • 歴史的平均
  • 追加された堅牢性の履歴中央値
  • ランダムウォーク(最後の観測値の予測)

サンプル外のデータでこれらを評価します。より複雑なモデルをこれらのベンチマークと比較してください。これらの簡単な方法を上回ることがどれほど難しいか、驚くかもしれません。さらに、さまざまな方法の堅牢性をこれらの単純な方法と比較します。たとえば、お好みの誤差測定を使用して、サンプル外の平均精度だけでなく誤差分散も評価します。

はい、Rob HyndmanがAleksandrがリンクしいると彼の投稿書いているように、サンプル外テストはそれ自体短いシリーズの問題です-しかし、本当に良い代替はありません。(サンプル内適合使用しないでくださいこれは予測精度のガイドではありません。)AICは中央値とランダムウォークを支援しません。ただし、AICが近似する時系列相互検証を使用できます。


答えを見つけました(+1)。あなたが興味があり、明確にしたい場合のために、私は別のコメントをしました。
アレクサンドルブレフ

17

私は再び質問を時系列について学ぶ機会として使用しています-私の興味のある(多くの)トピックの1つです。簡単な調査の結果、短い時系列をモデル化する問題にはいくつかのアプローチが存在するように思われます。

最初のアプローチは、使用することです標準/線形時系列モデル(AR、MA、ARMA、など)が、特定のパラメータに注意を払うと、で説明したように、この記事で紹介する必要はありませんロブHyndmanで[1]時系列と予測の世界。第二のアプローチ、私は使用を示唆している、見たことの関連文献のほとんどで参照非線形時系列モデルを、特に、閾値モデル含む[2]、閾値自己回帰モデル(TAR) 自己出るタール( SETAR)しきい値自己回帰移動平均モデル(TARMA)、およびTARを拡張するTARMAXモデル外因性の時系列モデル。しきい値モデルを含む非線形時系列モデルの優れた概要は、このペーパー [3]およびこのペーパー [4]に記載されています。

最後に、別のIMHO関連の研究論文 [5]は、非線形システムのVolterra-Weiner表現に基づく興味深いアプローチを説明しています- この [6] とこの [7]を参照してください。このアプローチは短くて騒がしい時系列の文脈で他のテクニックより優れていると主張されます。

参照資料

  1. Hyndman、R.(2014年3月4日)。モデルを短い時系列に近似します。[ブログ投稿]。http://robjhyndman.com/hyndsight/short-time-seriesから取得
  2. ペンシルバニア州立大学。(2015)。しきい値モデル。[オンライン教材]。STAT 510、適用時系列分析。https://onlinecourses.science.psu.edu/stat510/node/82から取得
  3. Zivot、E.(2006)。非線形時系列モデル。[クラスノート]。ECON 584、時系列計量経済学。ワシントン大学。http://faculty.washington.edu/ezivot/econ584/notes/nonlinear.pdfから取得
  4. Chen、CWS、So、MKP、およびLiu、F.-C。(2011)。金融におけるしきい値時系列モデルのレビュー。統計とそのインターフェース、4、167–181。http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdfから取得
  5. バラホナ、M。&プーン、CS (1996)。ノイズの多い短い時系列の非線形ダイナミクスの検出。Nature、 381、215-217。http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDFから取得
  6. ミズーリ州フランツ(2011)。VolterraおよびWienerシリーズ。Scholarpedia、6(10):11307。http://www.scholarpedia.org/article/Volterra_and_Wiener_seriesから取得
  7. フランツ、ミズーリ、ショルコップフ、B。(nd)。WienerおよびVolterra理論と多項式カーネル回帰の統一ビュー。http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdfから取得

4
+1回答にこれらの論文の参考文献を書いていただけますか?私たちは最近、論文への多くのリンクがしばらくして腐敗し、最終的には論文の著者、タイトルなども本文に記載されていない限りほとんど役に立たないことを発見しました。
whuber

2
@whuber:ありがとう。問題ありません。今晩、参考文献で回答を更新します。
アレクサンドルブレフ

2
Rob Hyndmanの投稿へのリンクに対して+1。(ただし、私は複雑なモデルのために-1誘惑しています。私はなるだろう極めてしきい値または20回の未満観測の時系列上の任意の他の非線形時系列の方法を使用しての警戒。あなたは行くれ、オーバーフィットとほぼ一定している直接カウンターOPの堅牢な方法の要件に準拠。)
S.コラッサ-モニカの復職

3
[2,3,4]短い時系列については言及せず、[2]:120を超える観測のプロットを見てください。[4] 20を超える非常に多くの観測がある金融に集中しています。[5]「短い時系列、通常1,000ポイントの長さ」(p。216)について書いています。TARまたは同様のモデル、またはリンク先のより複雑なモデルを20未満の観測値で確実かつロバストに適合させる方法はありません。(ちなみに、私もいくつかの推論統計をサイドで行います。観測数が20未満の場合、平均値ともう1つ以上のパラメーターを推定することはできません。)
S. Kolassa-Reinstate Monica

5
歓迎します;-)「短い」は非常にコンテキスト依存であると思います:センサー読み取りシリーズまたは金融では、1000データポイントは「短い」-しかし、サプライチェーン管理では、20か月に1回の観測がほぼ正常です、および「short」は12個以下の観測でのみ開始されます。
S. Kolassa -復活モニカ

11

T20

以下の定性的方法は、非常に短いデータまたはデータがない場合に実際にうまく機能します。

  • 複合予測
  • 調査
  • Delphiメソッド
  • シナリオ作成
  • 類推による予測
  • エグゼクティブオピニオン

私が非常にうまく機能することを知っている最良の方法の1つは、構造化アナロジー(上記リストの5番目)を使用することです。例についてはこの記事を、もちろんSASを使用してこれを行う「方法」に関するSASペーパーを参照してください。1つの制限は、アナロジーによる予測が機能するのは、あなたが良いアナロジーを持っている場合にのみ機能することです。Forecastproのようなツールを使用して類推による予測を行う方法に関するForecastproソフトウェアの別のビデオを次に示します。類推の選択は科学よりも芸術であり、類似の製品/状況を選択するには専門知識が必要です。

短期または新製品の予測のための2つの優れたリソース:

  • アームストロングによる予測の原理
  • カーンによる新製品予測

以下は説明のためのものです。シグナルとノイズを読み終えたところですネイト・シルバー著、米国と日本(米国市場に類似)の住宅市場のバブルと予測の良い例があります。下のグラフでは、10個のデータポイントで停止し、外挿法(指数平滑法/ ets / arima ...)のいずれかを使用して、どこで実際に終了するかを確認します。繰り返しますが、私が提示した例は、単純なトレンドの外挿よりもはるかに複雑です。これは、限られたデータポイントを使用したトレンド外挿のリスクを強調するためです。さらに、製品に季節的なパターンがある場合、類似の製品状況の何らかの形を使用して予測する必要があります。Journal of Business Researchで、医薬品で13週間の製品販売がある場合、類似製品を使用してより正確にデータを予測できると思う記事を読みました。

ここに画像の説明を入力してください


別のアプローチを指摘してくれてありがとう!そして、私は同意します、ネイト・シルバーの本は素晴らしいです。
ティム

5

観測値の数が重要であるという仮定は、モデルを識別するための最小サンプルサイズに関するGEP Boxの無意味なコメントから来ました。私が考える限り、より微妙な答えは、モデル同定の問題/品質は、サンプルサイズだけでなく、データに含まれる信号とノイズの比率に基づいているということです。信号対雑音比が強い場合は、必要な観測は少なくなります。s / nが低い場合は、識別するためにさらにサンプルが必要です。データセットが毎月で20の値がある場合、季節性モデルを経験的に特定することはできませんが、データが季節性であると思われる場合は、ar(12)を指定してモデリングプロセスを開始し、モデル診断を実行できます(有意性のテスト)構造的に不十分なモデルを削減または強化する


5

データが非常に限られている場合、ベイジアン手法を使用してデータを近似する傾向が強くなります。

ベイジアン時系列モデルを扱う場合、定常性は少し注意が必要です。1つの選択肢は、パラメーターに制約を適用することです。または、できませんでした。パラメータの分布を見たいだけの場合、これは問題ありません。ただし、事後予測を生成する場合は、爆発する多くの予測がある可能性があります。

Stanのドキュメントには、時系列モデルのパラメーターに制約を加えて定常性を確保する例をいくつか示しています。これは、使用する比較的単純なモデルでは可能ですが、より複雑な時系列モデルではほとんど不可能です。定常性を本当に強制したい場合は、Metropolis-Hastingsアルゴリズムを使用して、不適切な係数をすべて捨てることができます。ただし、これには多くの固有値を計算する必要があるため、処理が遅くなります。


0

あなたが賢明に指摘した問題は、固定リストベースの手順によって引き起こされる「過剰適合」です。賢明な方法は、データの量がごくわずかである場合に方程式を単純に保つことです。多くの月を経て、単純にAR(1)モデルを使用し、データへの適応率(ar係数)をそのままにしておけば、物事が合理的にうまくいくことがわかりました。たとえば、推定ar係数がゼロに近い場合、これは全体の平均が適切であることを意味します。係数が+1.0に近い場合、これは最後の値(定数に対して調整された方が適切です。係数が-1.0に近い場合、最後の値の負(定数に対して調整された)が最良の予測になります。そうでない場合、係数は最近の過去の加重平均が適切であることを意味します。

これがまさにAUTOBOXの始まりであり、「小さな観測数」が発生した場合に推定パラメーターを微調整するため、異常を破棄します。

これは、純粋なデータ駆動型アプローチが適用できない場合の「予測の技術」の例です。

以下は、異常を気にせずに12個のデータポイント用に開発された自動モデルです。ここに画像の説明を入力してくださいここで実際/フィットと予測、ここここに画像の説明を入力してくださいで残差プロットを使用してここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.