予測における休日の影響を考慮する方法


12

週ごとの季節性を持つかなり予測可能な毎日の時系列があります。休日がない場合、かなり正確であると思われる予測(クロスバリデーションによって確認された)を思いつくことができます。ただし、休日がある場合、次の問題があります。

  1. 過去のすべての休日が0であっても、予測では休日に0以外の数値が表示されます。これは実際には主要な問題ではありません。問題は...
  2. 休日に発生しない処理は、休日の翌日に「波及」するため、これらの異常値は短期的な革新的であるように見えるため、単純なダミー変数はそれをカットしません。週ごとの季節性がない場合は、休日の5日前後にわたって休日に未処理のデータを配布するための見積もりを考え出すことができます(休日のリード/ラグの影響を反映する変数の作成方法/時系列分析におけるカレンダー効果?)ただし、「スピルオーバー」の分布は、休日が発生する曜日、および休日がクリスマスまたは感謝祭であるかどうかに依存します。クリスマスまたは感謝祭では、年の残りよりも低いレートで注文が行われます。

クロスバリデーションのいくつかのスナップショットを以下に示します。これらのスナップショットは、異なる曜日に表示される休日の予測結果(青)と実際の結果(赤)を示しています。

ここに画像の説明を入力してください

また、クリスマスの影響はそれが属する曜日に依存するのではないかと心配しています。また、6年ほどの履歴データしかありません。

予測の文脈でこれらのタイプの革新的な外れ値に対処する方法についての提案はありますか?(残念ながら、データを共有することはできません)


1
私もこれにとても興味があります。
EngrStudent-モニカの復活

2
データを投稿できない場合は、データに似た構成データを投稿できますか?多くの場合、これにより関連性の高い回答が容易になります。
ティム

1
データをスケーリングします。モデルは同じになります(スケーリングのみ)。予測を元のメトリックにスケールし直すこともできます。
トムライリー

回答:


1

休日にダミー変数を作成し、1つをholiday + 1に、もう1つをholiday + 2に作成し、平日に該当する場合にのみ1に設定できませんでしたか?

サンクスギビングとクリスマスについては、これらの休日に別々のダミー変数を導入するのが最悪の選択肢のようです(データが6年しかないため)。ある程度までは、それがあなたの唯一の選択肢かもしれませんが、人々はそれらの休日では、たとえば7月4日とは異なる振る舞いをします「特別な」休日であり、間違いなくそれらを個別に分析したいでしょう)。ただし、次のアイデアが役立つ場合があります。

  • 感謝祭。それが常に同じ曜日(木曜日)にあるという事実がそれをより簡単にすべきではないでしょうか?つまり、平日のパターンは常に同じであるため、サンクスギビングダミーは6年のデータセットでも機能する可能性があります。
  • クリスマス。あなたのグラフを見ると、主な問題は他の祝日よりも効果が長く続くということです-「クリスマス」をクリスマスイブ(12月24日)として定義すると、多くの人が家に留まるからですクリスマスデー(12月25日)(一部の場所ではボクシングデー(12月26日)も)。これについてもう少し考えます。

これがお役に立てば幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.