興味深い質問。私は個人的に生産に入る製品については見ていませんが、論理を理解しています。
理論的には、デプロイされたモデルが多くのデータを見るほど、一般化する必要があります。したがって、利用可能なデータの完全なセットでモデルをトレーニングした場合、完全なデータセットからたとえばtrain / valセット(たとえば〜90%)のみを見たモデルよりも一般化する必要があります。
これに関する問題(および最初にデータをtrain / val / testセットに分割する理由!)は、見えないデータの正確性に関して統計的な主張をしたいということです。すべてのデータでモデルを再トレーニングするとすぐに、そのような主張をすることはできなくなります。
[編集]
ここで交差検定に関連する質問受け入れ答えは私に似たポイントを作り、物事の他の方法に言及し、。
ループします:
- モデルを訓練する
- →
- モデルを変更する
- ステップ1に進みます
- テストセットのパフォーマンスを評価する
- ステップ5で見つかったテスト精度を備えた現在のモデル
最終的に、テストセットで素晴らしいスコアを取得できた場合、それが一般化されていると主張できます。したがって、完全なデータセットでの再トレーニングが将来の不可視データのパフォーマンスを改善するかどうかについての質問は、厳密にテストできるものではありません。他の関連する問題セットでのパフォーマンスの向上の経験的証拠は、決定を下す必要がある時点での唯一のソースまたはガイダンスになります。
健全性チェックは、元のテストセットで再トレーニングされた最終モデルを再度テストすることです。トレーニング中に実際にテストセットが表示されたため、モデルがtrain / valセットのみを表示したときよりも高いスコアを期待しています。これにより、この最終モデルが将来のすべてのケースで優れていると100%確信することはできませんが、少なくとも、与えられたデータで可能な限り良好です。
おそらく、あなたの言うこと(おそらく学問的には動きません)を行うことに対して、より厳密な議論があるかもしれませんが、実際の応用には魅力的です!