機械学習のための時系列の順序付け


14

クロスバリデーションと時系列に関するRJ Hyndman の「研究のヒント」1つを読んだ後、ここで定式化しようとする古い質問に戻りました。分類または回帰の問題では、データの順序は重要ではないため、k分割交差検証を使用できるという考え方です。一方、時系列では、データの順序が明らかに非常に重要です。

予測時系列のモデルを機械学習を使用する場合しかし、一般的な方法は、一連再形成することである{y1,...,yT}を一連の「入出力ベクトル」に変換します。これは、時間に対して。t(ytn+1,...,yt1,yt;yt+1)

さて、この再整形が完了したら、結果の「入出力ベクトル」のセットを順序付ける必要がないと考えることができますか?たとえば、これらのデータを「学習」するためにn入力のフィードフォワードニューラルネットワークを使用すると、モデルにベクトルを表示する順序に関係なく、同じ結果に到達します。したがって、毎回モデルを再適合させる必要なしに、k分割交差検証を標準的な方法で使用できますか?

回答:


2

この質問に対する答えは、モデルの順序が正しく指定されている限り、これはうまく機能するということです。そうすれば、モデルからのエラーは独立します。

このホワイトペーパーは、モデルのクロス検証が不十分な場合、実際の貧弱さを過小評価することを示しています。他のすべての場合、相互検証は良い仕事をします。特に、時系列のコンテキストで通常使用されるサンプル外評価よりも良い仕事をします。


6

興味深い質問です!

あなたが説明するアプローチは、時系列データを分析するために、属性の固定長の特徴ベクトルを必要とする標準のMLメソッドを使用する人々によって非常に広く使用されています。

リンクする投稿で、Hyndmanは、再構成されたデータベクトル(サンプル)間に相関があることを指摘しています。k-CV(またはデータをランダムにトレーニングセットとテストセットに分割する他の評価方法)では、すべてのサンプルが独立していると想定されるため、これは問題になる可能性があります。ただし、この懸念は、属性を個別に処理する標準のMLメソッドの場合には関係ないと思います。

n=3

A:(y1,y2,y3;y4)B:(y2,y3,y4;y5)C:(y3,y4,y5;y6)

y2


1
一部のMLアルゴリズムは、属性を完全に個別に処理するため、高度に相関するサンプルの問題の影響を受けない場合があることに同意します。しかし、これらのアルゴリズムは時系列の作業にはあまり適していません。時系列に有望なMLアルゴリズムは、属性#1と属性#2が実際に似ていることに気付くことができなければなりません。 1)。これらのアルゴリズムは、Hyndmanが言及した問題にも悩まされます。
最大
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.