予測財務時系列のk倍CV —最後の倍のパフォーマンスはより関連性がありますか?


8

財務時系列のANNベースの予測モデルに取り組んでいます。私は5分割交差検証を使用しており、平均パフォーマンスはそうです。最後のフォールド(最後のセグメントがトレーニングから省略され、検証に使用される反復)のパフォーマンスは、平均よりも優れています。

これは偶然/データ依存ですか、それとも通常、最後の折り目の検証パフォーマンスは優れていますか?(おそらく、先行するすべてのデータを使用したトレーニングは、時系列内の後続のデータにより関連しているため)

これは少し奇妙な質問のように感じますが、とにかくいくつかの応答を期待しています。前もって感謝します :)


興味深い質問です。CVはオブジェクトの順序に情報がないと想定しているので、この方法でCVを実行することは一般的にエラーだと思いますが、現地のtsエキスパートにフィールドを残します。

回答:


10

時系列では、将来の観測を使用して過去を予測しているため、相互検証を介して通常の方法で予測モデルをテストすることはできません。未来を予測するには、過去の観測のみを使用する必要があります。LOO CVに相当する時系列では、代わりにローリング予測の起点を使用します。このことについては、このブログ投稿で説明しました。k分割CVに等価の直接時系列があるかどうかはわかりません。


3

Sci-Kit Learn Python Kitには、「TimeSeriesSplit」と呼ばれるものがあり、基本的に、Walk Forward最適化から取得するトレーニング/テストサンプルのセットのように見えます。Robは正解でした。将来のデータポイントを使用して過去のテストセットのトレーニングを行うことはできません。したがって、クロス検証する最良の方法は、テストセットを「Walking Forward」に保ちながら、トレーニングセットをできるだけ多くの「フォールド」に分割することです。 。結果として、連続する各トレーニングセットはその前のトレーニングセットのスーパーセットになり、各テストはより多くの最近のデータを設定して「前に進む」ことを維持します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.