これは、トレーニングセットとテストセットの構成によって異なります。
テストセットがかなり大きく、「アプリケーションケース」のデータの多様性を正しく反映している場合、私はこのように主張しません。しかし、テストデータがかなり小さい場合は、当然、良い結果または悪い結果が偶然に得られる可能性があります。このようなケースでは、より多くのテストデータを使用すると役立ちます(または、可能な場合は、利用可能なデータ全体の大部分を使用します)。
さらに、トレーニング結果は、モデルがこれまでに見たことのないデータをテストする、いくつかの内部パーティション分割(たとえば、繰り返し交差検証)を使用して取得する必要があります。これらの結果全体のパフォーマンスとパフォーマンスの広がりは、モデルの通常のパフォーマンスと、より良い結果またはより悪い結果が得られる可能性がどの程度かを示しています。このような手順を使用すると、CVの結果よりも優れたテスト結果は現実的であるとは見なしません。また、両方のモデルのCVパフォーマンスとパフォーマンススプレッドも確認して比較する必要があります。
また、トレーニングデータがテストデータに比べてかなり小さい場合でも、トレーニング結果はテスト結果や実際のアプリケーションケース結果よりも著しく優れている可能性があることに注意してください。