トレーニングセットで複数のモデルをトレーニングし、クロス検証セットを使用して最適なモデルを選択し、テストセットでパフォーマンスを測定したと仮定します。だから今、私は1つの最終的な最高のモデルを持っています。使用可能なすべてのデータで再トレーニングするか、トレーニングセットのみでトレーニングしたソリューションを出荷する必要がありますか?後者の場合、なぜですか?
更新:@ P.Windridgeが指摘したように、再訓練されたモデルを出荷することは、基本的に検証なしでモデルを出荷することを意味します。しかし、テストセットのパフォーマンスを報告することができます。その後、最適なモデルとより多くのデータを使用するため、パフォーマンスが向上することを期待して、完全なデータでモデルを再トレーニングできます。そのような方法論からどのような問題が発生する可能性がありますか?