不等間隔の時系列のモデリング

12

1年の期間にわたって不規則な間隔でサンプリングされた連続変数があります。1日あたり1回以上の観測がある日もあれば、何日も観測されない日もあります。これにより、時系列のパターンを検出することが特に困難になります。これは、一部の月（たとえば10月）は高度にサンプリングされ、他の月はそうではないためです。

ここに画像の説明を入力してください

私の質問は、この時系列をモデル化するための最良のアプローチは何でしょうか？

ほとんどの時系列分析手法（ARMAなど）には固定周波数が必要だと思います。一定のサンプルを取得したり、非常に詳細なデータのサブセットを選択したりするために、データを集計できます。両方のオプションを使用すると、元のデータセットからいくつかの情報が失われ、異なるパターンが明らかになる可能性があります。
シリーズをサイクルで分解する代わりに、モデルにデータセット全体をフィードして、パターンを取得することを期待できます。たとえば、時間、平日、月をカテゴリー変数に変換し、重回帰を試みて良い結果を出しました（R2 = 0.71）

私はANNなどの機械学習手法でもこれらのパターンを不均一な時系列から選択できると考えていますが、誰かがそれを試したのではないかと思っていました。

neural-network time-series regression

— 全角
ソース

4

ARIMA、指数平滑法などでは、実際には等間隔のサンプルポイントが必要です。あなたが書いているとき、あなたはあなたのデータを（例えば数日で）バケット化することができますが、あなたが書いているときもあなたは情報を失うでしょう。さらに、ARIMAは欠損値の処理があまり得意ではないため、欠損値になる可能性があるため、代入する必要があります。

もう一度書いているように、1つの代替策は、時間のダミーを回帰フレームワークにフィードすることです。私は個人的に、カテゴリーのダミーはあまり好きではありません。これは、隣接するカテゴリー間の鋭いカットオフを意味するためです。これは通常、あまり自然なことではありません。だから私はむしろ、異なる周期性を持つ周期的スプラインを見たいと思います。このアプローチには、不均一なサンプリングや欠損値を処理するという利点があります。

解釈には十分注意してください。サンプル内フィットは、サンプル外の予測精度の尺度として誤解を招きやすいことで有名です（ここを参照）。このサンプル内フィットとサンプル外予測の精度の違いは、予測に関心がない場合でも、サンプル内フィットとモデルがデータをどの程度理解しているかには関係がないことを意味します。、しかしそれ自体はモデリングのみです。私の哲学は、時系列をうまく予測できない場合、意味のある意味でそれを理解していないということです。 $R^2$

最後に、モデリングをやりすぎないでください。データを見るだけで、6月、8月の1日、9月/ 10月に何かが起こったことは明らかです。私はあなたが最初にこの何かを見つけるお勧め何かが（あなたがしたい場合は、ARIMAXに含めることができる）を説明変数として、例えば、だったし、モデルでこれを含めます。そこで起こったことは明らかに季節性ではありません。

— ステファン・コラサ
ソース

0

あなたの質問と@Stephan Kolassaからの良い答えは特にARIMAとニューラルネットワークについて話し合っているので、forecastパッケージをR外出先で提供できることを述べておきたいと思いますnnetar。1つの非表示レイヤーを持つシンプルなフィードフォワードニューラルネットワークをトレーニングし、遅れた入力。

たぶんあなたは次のように何かを試すことができます：

曜日、月の日、平日/週末など、観察ごとに多くの特徴を抽出します（日付のみが潜在的な依存関係として質問に記載されているため、これを含めたのはこのためですが、考えられるすべてのものを含めることができます。関心のある変数に影響を与える可能性があると考えています）。
関心のある変数の遅れた値と日時情報（曜日など）が入力になります。xregたとえば、日時変数を外部リグレッサ（）として含めることができます。

これらの入力に基づいて、関心のあるvarの将来の値を予測します。さらに、予測したい値の各日に観測された平均と分散/偏差を含めることも考えられます。これは、たとえばARIMAを使用して予想平均と分散を最初に予測し、それを上記のアプローチへの追加入力として追加する必要があることを意味します。

hth。

— ダビッドスキー
ソース