パン屋からの過去の販売データがあります(毎日、3年以上)。次に、将来の売上を予測するためのモデルを構築します(平日、天気変数などの機能を使用)。
モデルの適合と評価のためにデータセットを分割するにはどうすればよいですか?
- 時系列の列車/検証/テストの分割である必要がありますか?
- その後、トレインと検証セットを使用してハイパーパラメーターチューニングを行いますか?
- (ネストされた)相互検証は、時系列問題にとって悪い戦略ですか?
編集
@ ene100によって提案されたURLを辿った後に出会ったいくつかのリンクを以下に示します。
- 理論および実際の「ローリング予測の起源」を説明するロブ・ハインドマン(Rコードを使用)
- ローリングフォーキャスト予測のその他の用語は、「ウォークフォワード最適化」(ここまたはここ)、「ローリングホライズン」または「ムービングオリジン」です。
- 「これらの技術の需要と半数性は不明確である」ため、これらの技術は近い将来scikit-learnに統合されないようです(ここで説明します)。
そして、これは時系列相互検証の別の提案です。