日次データの重回帰で季節性をキャプチャする


13

季節性の高い製品の毎日の販売データがあります。回帰モデルで季節性をキャプチャしたい。四半期または毎月のデータがある場合、それぞれ3と11のダミー変数を作成できますが、毎日のデータを処理できますか?

3年間の毎日のデータがあります。独立変数は、価格、販促フラグ(yes / no)、および温度です。従属変数は、その製品の販売です。重回帰モデルを使用しているため、時系列モデルを探していません。


どのくらいのデータを取得していますか?何年の価値がありますか?温度などのデータはありますか?モデルの残りの部分はどのようなものですか?DVとIVは何ですか?
ピーターフロム-モニカの復職

Peter Flomの質問に加えて、データを単変量時系列または多変量時系列としてモデリングしていますか?多変量の場合、他の変数はありますか?それらの変数は季節的な行動を示しますか?その場合、ダミー変数を追加する必要はありません。これらの追加情報を提供できますか?
予報官14

質問を編集しました。解決策を提供してください。おかげで
Arushi


私は@IrishStatに完全に同意しますが、時系列モデルを無視することは想定していませんが、複数の季節性をキャプチャするかなり良いモデルです。 Trend.simultaneously.itsはR.のみで、forecast()パッケージを使用できます。
カルティV

回答:


10

@Irishstatは、これから説明する内容をほぼカバーしましたが、時系列回帰とOLS回帰を使用して、これらのデータをモデル化する個人的な経験で対応しました。

それが毎日のデータである場合、私は次のことをします:

季節ごとにダミー変数を作成します。

  • 曜日の季節性をキャプチャするには、6つのダミー変数を作成します。
  • 月の日付の季節性をキャプチャするには、30個のダミー変数を作成します
  • 年の月をキャプチャするには、11個のダミー変数を作成します。

トレンド変数のダミー変数を作成します。

  • 時系列が線形トレンドを示す場合、時間トレンド変数を追加します。

  • 時系列が非線形トレンドを示す場合、二次/立方/ログなどの非線形時間トレンド変数を追加します

独立変数を追加する変数

  • これは時系列データであるため、独立したバリベールのリードおよびラグの影響に注意する必要があります。たとえば、プライスポイントプロモーションフラグに言及している例では、応答にすぐに影響を与えない可能性があります。つまり、遅れや減衰/永続的な効果がある可能性があります。たとえば、今日プロモーションを実行すると、今日の売り上げは増加する可能性がありますが、プロモーションの効果は数日後に減衰します。重回帰を使用してこれをモデル化する簡単な方法はありません。parsimonoiusであり、あらゆるタイプのリードおよびラグ効果を処理できる伝達関数モデリングを使用する必要があります。前に投稿したこのを参照してください。介入(価格の場合)があり、急激な増加があり、その後に減衰効果が続きます。あなたが持っているならそれを言ったリードおよびラグ効果に関する先験的な知識、価格ポイントおよび(はい/いいえ)プロモーションの変更の前後に、ダミー変数をケースに追加変数を作成します。

  • また、移動する休日インジケータ変数を追加する必要があります。たとえば、Irishstatが指摘したように、移動する休日であるイースター/感謝祭(米国)を追加する必要があります。季節性をキャプチャするためにダミーのコーディングスキームを使用している場合、固定された日付の休日は自動的に処理されます。

  • さらに、加算/パルス(1回限りのイベント)やレベルシフト(永続的なシフト)などの外れ値を特定し、それらを回帰変数として追加する必要があります。時系列データの重回帰で外れ値を特定することはほとんど不可能です。Tsayの手順、またはAUTOBOX、SPSS、SASなどのソフトウェアまたはR のパッケージに組み込まれているChen and Liuの手順などの時系列異常値検出方法が必要ですtsoutlier

潜在的な問題:

OLS重回帰を使用して時系列データをモデル化する場合に発生する問題は次のとおりです。

  • エラーは自己相関する場合があります。この素敵なを参照してくださいウェブサイトおよびこのウェブサイトのこの問題を説明します。これを回避する1つの方法は、自己相関を修正できる一般化最小二乗(GLS)またはARIMAXアプローチとOLS重回帰を使用することです。
  • 6+30+11=47
  • ダミー変数を使用することにより、季節性が確定的である、つまり時間とともに変化しないと仮定しています。データは3年しかないので心配することはありませんが、シリーズをプロットして季節性が変わらないかどうかを確認することは価値があります。

また、重回帰を使用することにはさらに多くの欠点があります。予測がより重要な場合は、少なくとも6か月分のデータを保持し、重回帰の予測能力をテストします。主な目標が独立変数間の相関関係を説明することである場合、重回帰を使用することに注意し、代わりにARIMAX / GLSなどの時系列アプローチを使用します。

興味のある方は、伝達関数と動的回帰モデリングについて、Pankratzによる優れたテキストを参照できます。一般的な時系列予測については、Makridakis et alを参照してください。また、回帰および時系列ベースの予測については、Dieboldによる参考資料が適しています。


非常に素晴らしい要約ですが、週末の影響に加えて、特定の月の特定の曜日および特定の曜日の影響を無視したことを付け加えたいと思います。さらに、イベント前およびイベント後の影響は無視されません。イースターやその他の主要な休日/イベントの周りのアクティビティを検討してください。LEAD仕様の組み込みを必要とする個別の応答パターンがしばしばあります。また、パラメータは時間とともに変化することが多く、多くの場合、パラメータの不変性の仮定を検証する必要があることに注意する必要があります。
IrishStat 14

@Irishstatに感謝します。あなたが正しいです。ホリデーとそのリードとラグの効果を動かすことを忘れました。
予報官14

2

必要なものは、毎日の効果、毎週の効果、毎月の効果、毎月の効果、その日の効果、休日の鉛と遅れの効果、不特定だが経験的に特定可能なレベル/ステップシフトを組み込むモデルです現地時間の傾向、季節的な脈拍の変化、およびARIMA構造を組み込み、場合によってはパラメータの変化と時間の経過による誤差分散を処理します。これは伝達関数と呼ばれ、多重線形回帰として簡単に言い換えることができます(しかし、それほどではありません)。

具体的には、毎日の指標には6つの予測変数が必要です。一般に、どのような予測子が必要かを慎重に調整(識別)する必要があります。手に多くの時間があれば、私が言及した構造のいくつかを試すことができます。あるいは、生涯で問題を解決するために、高度なソフトウェア/コンサルタントが必要になる場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.