問題
マシンによって生成された時系列データが2つのばらばらの期間にわたってあります-およそ2016年に1か月、2018年にもう1か月です。
各タイムステップで、観測された変数は観測された変数の別のセットで説明できるとドメインの専門家は仮定しています。
このプロセスが時間とともに変化したかどうかをどのようにテストできますか?変数分布が時間の経過とともに変化したかどうかをテストしようとしていないことに注意してください。との関係が時間とともに変化したかどうかをテストしたいと思います。
現在のアプローチ
を生成した基礎となるプロセスをモデル化する方法として、を指定してを予測するために、2016年のデータに時系列モデル(たとえば、ガウスプロセス)をたとします。
ドメインの専門家は、おそらくこのモデルを使用して、2018年の与えられた場合の変数を予測し、残差を使用してモデル(2016年のプロセスを表す)がそうであることを推測できると示唆しました2018年も同じではありません。この時点以降の継続方法は不明です。
私が考えていること
2016年と2018年の残差が同じ分布から生成されているかどうかをテストする必要がありますか、それともKolmogorov-Smirnovテストなどを使用して適合度テストを実行する必要がありますか?このアプローチに関する私の懸念は、2018年のサンプル外のデータは2016年のサンプル内のトレーニングデータよりもエラーが大きくなる可能性が高いため、このテストでは誤検知が発生する可能性が高いということです。この影響を調整/説明する方法はありますか?
2016年と2018年の2つのモデルを適合させ、これらの2つのモデルが「同じ」または「異なる」ことをテストする方法を使用する必要がありますか?たとえば、1つの可能性は、2016年と2018年のデータにそれぞれ当てはめられた2つのガウスプロセス間のKL発散を計算することです。このアプローチの他の提案や問題はありますか?
共和分に関するいくつかの投稿を見ました。しかし、私はこの概念を完全に理解していません。これは関連していますか?
一般に、この種の問題にどのように取り組むことができますか?私はこれをオンラインで検索してみましたが、クエリの精度が不足しているため(この領域についてはよく知らないため)、関連する結果が多く得られません。検索するトピック/キーワードに関する簡単なヒント/コメント、または目を通すための本/論文にも感謝します。
親切に私は発見的手法に基づく方法ではなく、原則的な(できれば統計的)アプローチを探していることに注意してください。良い例は、以下のChowテストとその変形を示唆する回答です。