LOESS時系列モデルの増分学習


9

現在、いくつかの時系列データに取り組んでいますが、LOESS / ARIMAモデルを使用できることはわかっています。

データは、長さが1000のベクターに書き込まれます。これはキューであり、15分ごとに更新されます。

したがって、新しいデータがベクターにプッシュされる間、古いデータが飛び出します。

スケジューラでモデル全体を再実行できます。たとえば、15分ごとにモデルを再トレーニングします。つまり、1000値全体を使用して、LOESSモデルをトレーニングします。ただし、1つの値のみが挿入され、別の999の値が挿入されるたびに、非効率的です。前回と同じです。

では、どのようにしてパフォーマンスを向上させることができますか?

どうもありがとう


3
「LOESS / ARIMAモデル」とは?非線形トレンドがLOESSを使用して推定されるARIMAエラーのある非線形時間トレンドを意味しましたか?
Rob Hyndman 2010

すみません、LOESSまたはARIMAモデルです。たとえば、LOESSを使用して、残差を次のように検索します。残差(loess(x〜時間))データxは、15分ごとに更新される1000個の値を持つベクトルであるためです。残差を効率的に取得する方法はありますが、毎回入力としてデータセット全体を再実行することはできませんか?毎回1つの値しか更新されないため、他の999の値は前回と同じです。
zhang

可能な方法の1つとして、最初の1000の値を使用して次の1000の値を予測することができます(ただし、LOESSは4つの値の予測のみをサポートします)。次に、実際の値と対応する予測値の差として残差を計算します。次に、1000の値ごとにモデルを再トレーニングします。ただし、これは私が望んでいる元のLOESSモデルではありません:-(
zhang

回答:


1

これをより身近なものに再定式化しましょう。ARIMAはPID近似に類似しています。私は不可欠です。MAはPです。ARは、D項である差分方程式として表すことができます。LOESSは最小二乗フィッティングのアナログです(実際にはハイテクの兄貴です)。

では、2次モデル(PID)を改善したい場合はどうすればよいでしょうか。

  • まず、カルマンフィルターを使用して、1つの新しい情報でモデルを更新できます。
  • 「グラデーションブーストツリー」と呼ばれるものも見ることができました。それらの類似物を使用して、2番目のARIMAモデルを作成します。このモデルの入力は、両方とも最初のフィードに供給された生の入力であり、最初のエラーで増強されます。
  • 複数のモードのエラーのPDFを確認することを検討します。エラーをクラスター化できる場合は、モデルを分割するか、混合モデルを使用して入力をサブモデルに分離することができます。サブモデルは、単一の大規模モデルよりも局所現象学の処理に優れている場合があります。

私が尋ねなかった質問の1つは、「パフォーマンスとはどういう意味ですか?」です。明確に述べられた善の尺度がない場合、候補のメソッドが「改善する」かどうかを判断する方法はありません。あなたはより良いモデリング、より短い計算時間、そしてより効率的な情報の利用を望んでいるようです。実際のデータについてエフェメリスを持っていることもこれを知ることができます。風をモデリングしている場合は、拡張モデルを探す場所を知ることができます。また、データの変換が役立つ場所を見つけることができます。


1

これは、レスモデルとARIMAモデルのどちらを使用しているかによって異なる質問です。私は今のところ、レスの質問に答えるつもりです。ARIMAのケースでは、適切な開始値のセットを使用すること以外に効率はほとんどないのではないかと思います。

レスモデルは、データのさまざまなサブセットに重み付き回帰を当てはめることで機能します。各適合にはデータの一部のみが使用されます。したがって、1つのデータポイントを一方の端でドロップし、もう一方を別の端で追加してモデルを再フィットするたびに、技術的には最初と最後のポイントを使用するローカル回帰のみをフィットする必要があります。中間のすべてのローカル回帰は同じになります。影響を受けないこれらの影響のないローカル回帰の正確な数は、レスの平滑化パラメーターによって異なります。

モデルを近似するために使用しているパッケージをハッキングして、以前の近似からのローカル回帰のほとんどを取り、データの最初と最後に必要なものだけを近似できるようにすることができます。

ただし、追加のプログラミング時間のコストが、15分ごとにモデルを最初からフィッティングするだけのコンピューター時間のコストよりも実質的に少ない場合にのみ、これを行う価値があるように思えます。データポイントが1000個しかないため、毎回モデルを最初から適合させることはそれほど大きなことではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.