時系列の予測を行う方法は?


9

私は時系列データの分析にはあまり詳しくありません。しかし、私は対処すべき単純な予測タスクだと思います。

一般的な生成プロセスからの約5年分のデータがあります。毎年、非線形成分を持つ単調に増加する関数を表します。毎年40週間のサイクルで、毎週のカウントがあります。プロセスが開始され、関数はゼロから始まり、関数の前半ではかなり急速に増加し、後半では遅くなり、最後の5週間で平準化されます。このプロセスは、年を追うごとに一貫しており、年によってセグメント全体の変化率とボリュームに小さな違いがあります。

y1={0,Nt1,Nt2,...Nt39,Nt40}

y5={0,Nt1,Nt2,...Nt39,Nt40}

ここで、Ntxは時間xでのカウントに等しい。

目標は、txでN(またはより良いt0からtx、またはそのポイントへの勾配)を取り、t40でNを予測することです。たとえば、N_ {t10}が5000の場合、その年のN_ {t40}の期待値は何ですか。では、問題は、そのようなデータをどのようにモデル化するのでしょうか。簡単に要約して視覚化できます。しかし、予測を容易にし、エラーの測定値を組み込むモデルが欲しいのですが。Ntxt0txNt40Nt10Nt40


2
本当に厳しく制限しますか?この問題に実用的なアプリケーションがある場合は、時間xでのカウントがわかるまでに、以前のすべてのカウントもわかります。それらを使用して予測を支援してみませんか?
whuber

確かに。あなたは正しいです。ご指摘いただきありがとうございます。
Brett

回答:


6

おそらく、最も単純なアプローチは、Andy Wが示唆したように、季節的な一変量時系列モデルを使用することです。Rを使用する場合は、auto.arima()または予測パッケージのいずれかets()を試してください。

どちらでも大丈夫ですが、一般的な時系列メソッドは、提供されたすべての情報を使用するわけではありません。特に、あなたは毎年の曲線の形状を知っているようですので、それに応じて毎年のデータをモデル化することによってその情報を使用するほうが良いかもしれません。以下は、この情報を組み込むことを試みる提案です。

ある種のシグモイド曲線がうまくいくようです。たとえば、シフトされたロジスティック: 年のためのと週、と推定されるパラメータです。は漸近最大値、は増加率を制御し、はときの中点です。(記述した非対称性を可能にするために、別のパラメーターが必要になります。これにより、時間までの増加率は、後よりも速くなり tjatbtrtrtat

ftj=rteatjbt1+eatjbt
tjatbtrtrtatf t j = r t / 2 b t b t a t b tbtftj=rt/2btbt。これを行う最も簡単な方法は、が時間前後で異なる値を取ることを許可すること。atbt

パラメータは、各年の最小二乗法を使用して推定できます。パラメータはそれぞれ時系列を形成します:、および。これらは、標準の時系列メソッドを使用して予測できますが、場合、予測を作成するために各系列の平均を使用する以外に多くのことはできません。次に、6年目の場合、週の値の推定値は単にであり、、、およびが使用されます。b 1b n r 1a1ab1b N=5Jの F6J 6 B 6 、R 6r1r=5jf^6ja6b6r6

6年目のデータが観測され始めたら、この推定値を更新する必要があります。新しい観測値が得られるたびに、6年目のデータに対してシグモイド曲線を推定します(3つのパラメーターがあるため、最初に少なくとも3つの観測値が必要になります)。次に、5年目までのデータを使用して取得された予測と6年目からのデータのみを使用して取得された予測の加重平均をとります。重みはそれぞれおよびです。 。それは非常にその場しのぎであり、より大きな確率モデルのコンテキストに配置することで、より客観的にすることができると私は確信しています。それにもかかわらず、それはおそらくあなたの目的のために大丈夫でしょう。t 4 / 3640t/36t4/36


4

あなたの質問は、本質的にBox Jenkins ARIMAモデリングが何をするかです(あなたの年間サイクルは季節成分と呼ばれます)。自分で資料を調べるだけでなく、

R McClearyによる1980年の社会科学の応用時系列分析。RAヘイ; EE Meidinger; Dマクドウォール

将来をさらに予測したい(そしてそうすることでエラーを評価したい)理由について合理的な理由を考えることができますが、実際には非常に難しいことがよくあります。あなたが非常に強い季節成分を持っている場合、それはより実現可能です。さもなければ、あなたの見積もりはおそらく比較的少ない将来の期間で平衡に達するでしょう。

モデルに合うようにRを使用することを計画している場合は、おそらくRob HyndmanのWebサイトをチェックする必要があります(うまくいけば、彼は私よりも良いアドバイスをくれます!)


-2

5年間のデータと年間40の観測があります。それらをWebに投稿して、500マイルの高さで哲学を立てるのではなく、実際にグラウンドゼロでこれに答えてみませんか。数字が楽しみです。私たちは、このようなデータ、たとえば、週単位でタイムシェアリング週に取引する顧客の数を確認しました。このシリーズは毎年ゼロから始まり、限界値まで蓄積されます。


1
-1これは、役立つ返信というよりは、自己宣伝のようです。
whuber

@whuber:意図的ではありません。私が遭遇した同様の「粘着性の問題」についての単なる反省。
IrishStat 2011年

それから、それは興味深いコメントをするでしょう。コメントは、この貴重な体験の一部を紹介する良い方法です。返信は、質問への実際の回答のために予約する必要があります。投票、アーカイブ、検索可能にするなどのため、より直接的な関連性があり、永続的な価値があり、批判に耐えられる必要があります。(もちろんこれは理想化ですが、それが私たちが目指していることです。:-)
whuber

@whuber:あなたが教える!私は学ぶ !「コメント欄」にコメントを入れておきます。繰り返しますが、何かを促進するつもりはまったくなく、特定のソフトウェアやコンサルタントの一部でも、村の他の人々と経験を共有しようという意欲だけがありました。OPが私のコメントが役に立ったと私は確信しています。ブレットとは何と言いますか?
IrishStat 2011年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.