時系列の予測可能性の評価


11

Jan'05からDec'11に及ぶ月間時系列が2万を少し超えると想定します。これらはそれぞれ、異なる製品のグローバル販売データを表しています。それぞれの予測を計算するのではなく、「実際に重要」な少数の製品のみに焦点を当てたい場合はどうなりますか?

私はそれらの製品を総年間収益でランク付けし、古典的なパレートを使用してリストを切り詰めることができました。それでも、最終的な収益にはあまり貢献していませんが、一部の製品は予測が非常に簡単なので、除外しないと悪い判断になると思われます。過去10年間に毎月50ドル相当の売り上げを上げた製品は、あまり聞こえないかもしれませんが、将来の売り上げを予測するのにほとんど労力を要しません。

したがって、製品を4つのカテゴリに分類するとします。高収益/予測が容易-低収益/予測が容易-高収益/予測が困難-低収益/予測が困難。

第4グループに属する時系列のみを残しておくのが妥当だと思います。しかし、「予測可能性」をどのように正確に評価できますか?

変動係数は良い出発点のようです(これについて少し前にいくつかの論文を読んだことも覚えています)。しかし、私の時系列が季節性/レベルシフト/カレンダー効果/強い傾向を示している場合はどうなりますか?

「生の」データではなく、ランダムなコンポーネントの変動性のみに基づいて評価を行うべきだと想像します。それとも何か不足していますか?

誰かが以前に同様の問題に遭遇しましたか?あなたたちはどうやってそれについて行きますか?

いつものように、どんな助けでも大歓迎です!

回答:


9

これはstlに基づく2番目のアイデアです。

stl分解を各シリーズに当てはめ、残りのコンポーネントの標準誤差を、部分的な年を無視して元のデータの平均と比較できます。予測しやすい系列は、se(剰余)とmean(データ)の比率が小さい必要があります。

年の一部を無視することをお勧めする理由は、季節性がデータの平均に影響を与えるためです。質問の例では、すべてのシリーズに完全な7年があるため、問題ではありません。しかし、系列が2012年まで延長された場合、平均の季節的な汚染を避けるために、平均は2011年末までしか計算されないことをお勧めします。

このアイデアは、mean(data)が理にかなっていることを前提としています。つまり、データは(季節性を除いて)平均定常的です。傾向が強いデータや単位の根を持つデータにはおそらく機能しません。

また、適切なstlフィットが良好な予測につながると想定していますが、それが正しくない例を考えることができないので、おそらく大丈夫な仮定です。


こんにちはロブ、私に戻ってくれてありがとう。私はあなたのアイデアが好きなので、試して、望ましいレベルのフィルタリングが提供されるかどうかを確認します。もう1つだけ、mean(remainder)よりもmean(data)を使用する特別な理由はありますか?私の時系列のいくつかは、やや強い傾向があると思います。代わりに、STL分解シリーズはすべきではありません。また、予測可能性を評価するためにこれまでに概説したアプローチや、外れ値を見つけるためのアプローチは、実際のビジネス環境に実装するには十分だと思いますか?それとも、あまりにも「素人」ですか?普段とはかなり違うことをしますか?
Bruder

mean(remainder)はゼロに近くなります。ノイズとデータのスケールを比較したいので、mean(data)は大丈夫です。あなたのトレンドにどう対処するかわからない。結果を信じる前に、さまざまなデータでアプローチを慎重にテストします。
Rob Hyndman、2012

8

これは、予測においてかなり一般的な問題です。従来の解決策は、各アイテムの平均絶対誤差率(MAPE)を計算することです。MAPEが低いほど、アイテムの予測が容易になります。

これに関する1つの問題は、多くの系列にゼロ値が含まれていて、MAPEが定義されていないことです。

yttT

Q=1T12t=13T|ytyt12|,
qt=(yty^t)/Qy^tyth

予測しやすいシリーズは、MASEの値が低い必要があります。ここで「予測しやすい」とは、季節のナイーブ予測と比較して解釈されます。状況によっては、別のベースメジャーを使用して結果をスケーリングする方が理にかなっている場合があります。


こんにちはロブ、親切な返事をありがとう。いつものように、あなたのアプローチは非常にきちんとしていて、簡単で合理的です。予測値の追加(FTV)を季節的素朴なモデルに対して既に評価しているので、同じ「基本測定」を使用して予測可能性を評価するという考えは非常に魅力的です。唯一の問題は、MASEを計算するために、予測方法を選択し、20000の時系列ごとにシミュレーションを実行する必要があることです。簡単に予測できるシリーズを事前に見つけて、計算時間を節約できることを期待していました。
Bruder

何らかの理由で、相対的変動性が低い時系列(つまり、CV)を使用すると、予測がより簡単かつ正確になると思いました。予測を計算し、それからエラーを測定するだけで、一種の抵抗は、私の目的だと思います。私が言おうとしているのは、MASEを予測可能性の尺度というよりは予測精度の尺度のように見ているということです。しかし、私は間違っているかもしれません... :)
ブルーダー

1
@Bruder:2つの考え:1.季節的な予測ではなく、単純な単純な予測を見ることができます。単純な単純な予測は、時系列の以前の値を使用するだけで、強い傾向を示します(1期間の遅れ)。2. STL分解は良い考えです。残差が季節要素や傾向要素に比べて非常に小さい場合は、系列を簡単に予測できます。
ザック

1
@Rob-STL分解はどうですか?1つの石で2羽の鳥を取得できますか(つまり、外れ値を見つけて予測可能性を評価し、「真の」予測可能性を評価します)。STLと季節のナイーブモデルだけでどれだけ多くのことができるのかと驚かされます。しかし、物事が真実であるには余りにも良いときに何が起こるかを知っています...
Bruder

1
ti

5

pn

Ω(xt)

しかし、おそらく、Robが提案したMASEメジャーを使用して、いくつかのサブグループで20,000の粗いグリッド分離を作成してから、それぞれにForeCAを適用することができます。


0

この回答は非常に遅いですが、製品需要の時系列の予測可能性の適切な尺度をまだ探している人は、おおよそのエントロピーを調べることを強くお勧めします

時系列に変動の反復パターンが存在すると、そのようなパターンが存在しない時系列よりも予測がしやすくなります。ApEnは、同様の観測パターンの後に追加の同様の観測が続かない可能性を反映しています。[7] 多くの反復パターンを含む時系列は、ApEnが比較的小さいです。予測が難しいプロセスほど、ApEnが高くなります。

製品の需要は非常に強い季節的要素を持つ傾向があり、変動係数(CV)が不適切になります。ApEn(m、r)はこれを正しく処理できます。私の場合、データには毎週強い季節性がある傾向があるため、ここで推奨されるようにパラメーターm = 7およびr = 0.2 * stdを設定します


u

uu
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.