時系列データをトレイン/テスト/検証セットに分割する


11

時系列データをトレイン/テスト/検証セットに分割する最良の方法は何ですか?検証セットはハイパーパラメーター調整に使用されますか?

3年分の日次販売データがあり、計画は2015-2016をトレーニングデータとして使用し、2017年のデータから10週間ランダムにサンプリングして検証セットとして使用し、2017年のデータからさらに10週間テストセット。次に、テストおよび検証セットの各日について前にウォークします。

回答:


7

時間に基づく分割を使用して、先読みバイアスを回避する必要があります。時間順にこの順序でトレーニング、検証、テストを行います。

テストセットは、データの最新の部分である必要があります。実稼働環境での状況をシミュレートする必要があります。そこでは、モデルをトレーニングした後、モデルの作成後のデータを評価します。したがって、検証とトレーニングに使用するランダムサンプリングはお勧めできません。


4

時系列データをトレーニング/検証/テスト/予測に活用する最も完全な方法はこれだと思います:

ここに画像の説明を入力してください

画像は自明ですか?そうでない場合は、コメントしてください。テキストを追加します...


3

トレーニング/検証セットのセットを1つだけ作成する代わりに、そのようなセットをさらに作成できます。

たとえば、最初のトレーニングセットは6か月のデータ(2015年の最初の学期)で、検証セットは次の3か月(2015年7月-8月)になります。2番目のトレーニングセットは、最初のトレーニングと検証セットの組み合わせになります。その後、検証セットは次の3か月になります(2015年9月から10月)。等々。

これは、Kフォールドの相互検証のバリエーションであり、トレーニングセットは以前のトレーニングと検証セットの組み合わせです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.