時系列予測のデータ増強戦略


11

時系列予測で「データ拡張」を行う2つの戦略を検討しています。

まず、背景について少し説明します。時系列{ A i }の次のステップを予測する予測子Pは、通常、時系列の過去の状態だけでなく、予測子の過去の状態にも依存する関数です。{Ai}

P({Ait1},PSt1)

システムを調整/トレーニングして適切なPを取得する場合は、十分なデータが必要です。利用可能なデータでは不十分な場合があるため、データの拡張を検討します。

最初のアプローチ

我々は、時系列があると{Ai}と、1in。そして、我々が持っていることも想定ϵ以下の条件を満たしている:0<ϵ<|Ai+1Ai|i{1,,n}

新しい時系列{Bi=Ai+ri}を構築できます。ここで、riは分布N(0,ϵ2)

次に、{Ai}でのみ損失関数を最小化する代わりに、{Bi}でも損失関数を最小化します。したがって、最適化プロセスがmステップを取る場合、予測子を2m回「初期化」する必要があり、約2m(n1)予測子の内部状態を計算します。

第二のアプローチ

{Bi}{Bi}{Ai}m(n1)

もちろん、ここでは計算作業は少なくなります(ただし、アルゴリズムは少し醜いです)が、今のところ問題ではありません。

疑い

問題は次のとおりです。統計的な観点から、「最良の」オプションはどれですか。なぜ?

最初の方が内部状態に関連する重みを「正規化」するのに役立ち、2番目の方が観測された時系列の過去に関連する重みを正規化するのに役立つため、私の直感は最初の方が優れていることを教えてくれます。


追加:

  • 時系列予測のためにデータ拡張を行う他のアイデアはありますか?
  • トレーニングセットの合成データに重みを付ける方法は?

回答:


5

時系列予測のためにデータ拡張を行う他のアイデアはありますか?

私は現在、同じ問題について考えています。Le Guennecほかの論文「畳み込みニューラルネットワークを使用した時系列分類のデータ拡張」を見つけました。ただし、予測は対象外です。それでも言及されている増強方法は有望に見えます。著者は2つの方法を伝えます:

ウィンドウスライシング(WS)

コンピュータビジョンコミュニティからヒントを得た最初の方法[8,10]は、時系列からスライスを抽出し、スライスレベルで分類を実行することです。この方法は、[6]で時系列に導入されました。トレーニングでは、クラスyの時系列から抽出された各スライスに同じクラスが割り当てられ、分類器はそのスライスを使用して学習されます。スライスのサイズは、このメソッドのパラメーターです。テスト時に、学習された分類器を使用してテスト時系列の各スライスが分類され、予測ラベルを決定するために多数決が実行されます。この方法は、以下ではウィンドウスライシング(WS)と呼ばれます。

ウィンドウワーピング(WW)

私たちが使用する最後のデータ拡張手法は、より時系列固有のものです。これは、図2に示すように、ランダムに選択された時系列のスライスを高速または低速にワープすることで構成されます。元のスライスのサイズは、このメソッドのパラメーターです。図2は、「ECG200」データセットと対応する変換データの時系列を示しています。このメソッドは、異なる長さの入力時系列を生成することに注意してください。この問題に対処するために、変換された時系列に対してウィンドウスライスを実行して、すべてが同じ長さになるようにします。このホワイトペーパーでは、ワーピング率をと等しい0.52、またはのみ考慮しますが、他の比率を使用することもでき、トレーニングセットのクロス検証によって最適な比率を微調整することもできます。以下では、この方法をウィンドウワーピング(WW)と呼びます。

図2紙から

著者はシリーズの90%を変更せずに維持しました(つまり、WSは90%スライスに設定され、WWの場合はシリーズの10%がゆがみました)。メソッドは、画像のアウトラインの1D表現を除いて、いくつかのタイプの(時系列)データの分類エラーを減らすことが報告されています。著者はここからデータを取得しました:http : //timeseriesclassification.com

トレーニングセットの合成データに重みを付ける方法は?

画像の拡張では、拡張によって画像のクラスが変更されることは想定されていないため、実際のデータとして重み付けすることはよくあります。時系列予測(および時系列分類)異なる場合あります。

  1. 時系列は人間にとって連続したオブジェクトとして簡単に認識されないので、どれだけ改ざんするかに応じて、それはまだ同じクラスですか?少しスライスしてワープするだけで、クラスが視覚的に区別できる場合、これは分類タスクに問題を引き起こさない可能性があります
  2. 予測については、

    2.1 WSは今でも良い方法です。系列のどの90%の部分を見ても、同じルールに基づく予測が予想されます=>完全な重み。

    2.2 WW:シリーズの終わりに近づくほど、私はより慎重になるでしょう。直感的に、曲線の最新の特徴が最も関連していると仮定して、0(最後にワープ)と1(最初にワープ)の間でスライドする重み係数を考え出します。


5

時系列予測のためにデータ拡張を行う他のアイデアはありますか?

DeVriesとTaylorによる「機能空間でのデータセット拡張」に基づく別のアプローチによる別の答え。

この作業では、特徴空間のサンプル間の外挿を使用してデータセットを拡張し、教師あり学習アルゴリズムのパフォーマンスを向上できることを示します。私たちのアプローチの主な利点は、ドメインに依存せず、特別な知識を必要としないため、さまざまな種類の問題に適用できることです。

私に有望に聞こえます。原則として、任意のオートエンコーダーを使用して、特徴空間に表現を作成できます。これらの機能は、内挿または外挿できます。

CjCkC

この論文もシーケンス分類のみをカバーしています。ただし、IMOの原理は回帰分析でも同じです。おそらく実際のデータと同じ分布から新しいデータを取得します。それが必要なものです。

AE拡張のアーキテクチャ

ニューラルネットワークによるデータ生成のこの原則をさらに詳しく説明すると、Generative Adversarial Networks(GAN)になります。それらを同様の方法で使用して、おそらく最も洗練された最先端の方法である拡張データを生成できます。


3

Bergmeir、Hyndman、およびBenitezからのこの論文に触発された別のアプローチを最近実装しました。

BB

このようにして、最初の時系列を非常によく表す、必要な数の追加の時系列を生成できます。以下は、追加の同様の時系列を生成するためのいくつかの実際のデータのアプリケーションの例です。

拡張シリーズ

ここでは、元の論文で提案されているBox Coxではなく、Yeo-johnson変換を使用して拡張が示されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.