時系列相互検証からの最終モデル


10

モデル調整のための「通常の」K分割交差検証の経験があり、時系列モデルのアプリケーションに少し混乱しています。

時系列モデルの場合、相互検証の当然の結果は、Hyndmanによって記述された「ローリングフォワードオリジン」手順であることが私の理解です。これは私には十分に理にかなっており、以下のコードtsCVは、HydmanのブログからのR での関数の使用を示し、エラーがCVとデータセット全体とで一度にどのように異なるかを示しています。

library(fpp)
e <- tsCV(dj, rwf, drift=TRUE, h=1)
sqrt(mean(e^2, na.rm=TRUE))
## [1] 22.68249
sqrt(mean(residuals(rwf(dj, drift=TRUE))^2, na.rm=TRUE))
## [1] 22.49681

さて、上記のリンクでは、ドリフトパラメータが新しい予測の起点ごとに再推定されると述べています。「通常の」CVでは、使用する最適なパラメーターを決定するために平均を取得できるように、各フォールドに対して評価するパラメーターのグリッドを用意します。次に、これらの「最適な」パラメーターを使用して完全なトレーニングセットに適合させ、それを私の最終モデルとして使用して、以前に実施したテストセットを評価します。これは入れ子の交差検証であるため、どの時点でもテストセットのトレーニングは行っていません。

これは明らかに「ローリング・フォワード起源」プロシージャの場合ではないパラメータが各折り目のために最適化された(のようなR法のための少なくともbatstbatsauto.arima、など)。モデルパラメーターの調整に関してこの方法を誤解しているのでしょうか、または使用される最終モデルに設定する時系列モデルパラメーターをどのように選択するのですか?または、パラメーターの調整は、最適化がモデルのフィッティングの一部であると思われる時系列モデルの問題を考慮せず、CVの結果は、各モデルの全体的なパフォーマンスを示すだけです。そして、最後に大部分のデータを使用して構築された最終的なモデルは、私が使用するモデルですか?

これはもっと簡単な質問に言い換えることができると思います。クロス検証(「ローリングフォワードオリジン」)の後、最後に作成されたモデル(最大のスーパーセットを最終的なフィットモデルとして)を使用するだけですか?または、何を提案しますか?


tsCV関数の前に、交差検証中に再トレーニングまたは再推定を行わない同様の関数を作成しました。私がしたことが間違っていたかどうかについて知りたいです。
DataJack 2017

回答:


1

ロールフォワードオリジンをk分割交差検証(別名、相互検証によるバックテスト)と組み合わせることができます。折り目を1回前もって決定し、ローリングのたびにk個の折り目を反復処理し、k-1でトレーニングし、kでテストします。保持されたすべてのテストフォールドの結合により、その時点でのデータセット全体の1つの完全なカバレッジが得られ、トレインフォールドはその時点でデータセットをk-1回カバーします。 )。次に、通常はトレインとテストを個別にスコアリングして、そのときに個別のトレイン/テストスコアを取得します。

パラメータを最適化するときは、最初に別のホールドアウトセットを作成し、次に残りのデータのみについて説明した交差検証を実行します。最適化する各パラメーターについて、そのパラメーターが時間に依存しない(すべてのローリング時間で最適化を実行できる)か、時間に依存する(パラメーターが各時間で個別に最適化される)かを決定する必要があります。後者の場合、パラメーターを時間の関数(線形の可能性があります)として表し、その関数の時間に依存しない係数を常に最適化します。


0

パラメーターをテストデータに最適化した場合、トレーニングデータではなく、データをテストデータに部分的に適合させることになります。たとえば、Holt Wintersモデルでガンマをどのように設定する必要があるかなどではなく、源泉徴収されたデータよりも最適な方法を知りたいとします。


あなたは正しいですが、あなたのコメントは私がこの状況が入れ子になった交差検証であるため、モデルがホールドアウトテストセットでトレーニングされないことを私が言い損ねたことを私に理解させます。パラメータチューニング自体(たとえば、単一のメソッド)とネストされたチューニング/モデル選択の両方について話しています。
cdeterman 2017

交差検証を完了し、Holt Wintersが勝ったとしましょう。最終的なモデルのガンマを取得するために、完全なデータセットにを再フィットしますか?
cdeterman 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.