利用可能なラベル付きデータを使用して、モデルが日付にトレーニングされ、トレーニングとテストに分割されたとしましょう。すなわち、t r a i n d t 1、t e s t d t 1です。次に、このモデルが本番環境にデプロイされ、新しい受信データを予測します。一部のX日通過との間に収集された標識されたデータの束が存在するD 、T 1及びD T 1 + X日は、それを呼び出すことができますD A T A X。私の現在のアプローチでは、私は外のランダムなサンプルを取る (80/20スプリットを例えばのために取ります)、
したがって、 のD A T A x = t r a i n x(d t 1でトレーニングされた既存のモデルを微調整するために使用される新しいデータ) 20 %のD A T A x = t e s t x(新しいt e s t d t 1に追加されたデータ)
この微調整のプロセスは、時間の経過とともに繰り返されます。
これを行うことで、テストセットを拡大し、モデル全体の再トレーニングを回避します(基本的に、モデルが学習した古いデータを破棄できます)。生成された新しいモデルは、古いモデルを微調整したバージョンです。
このアプローチに関して、いくつか質問があります。
- これを行うことには明らかな欠点がありますか?
- しばらくすると、モデルを完全に再トレーニングする必要がありますか(以前に学習したことをすべて無視し、新しいトレーニング/テストスプリットでモデルをトレーニングします)、または上記のアプローチを無期限に継続できますか?
- 既存のデプロイ済みモデルを新しく微調整したモデルと交換するための条件は何ですか?