最終(生産準備完了)モデルは、完全なデータでトレーニングするのか、それともトレーニングセットでトレーニングするのか?


23

トレーニングセットで複数のモデルをトレーニングし、クロス検証セットを使用して最適なモデルを選択し、テストセットでパフォーマンスを測定したと仮定します。だから今、私は1つの最終的な最高のモデルを持っています。使用可能なすべてのデータで再トレーニングするか、トレーニングセットのみでトレーニングしたソリューションを出荷する必要がありますか?後者の場合、なぜですか?

更新:@ P.Windridgeが指摘したように、再訓練されたモデルを出荷することは、基本的に検証なしでモデルを出荷することを意味します。しかし、テストセットのパフォーマンスを報告することができます。その後、最適なモデルとより多くのデータを使用するため、パフォーマンスが向上することを期待して、完全なデータでモデルを再トレーニングできます。そのような方法論からどのような問題が発生する可能性がありますか?


外部規制環境で働いていますか?(つまり、検証済みのモデルを出荷する必要があり、質問は仮説に過ぎませんが、とにかく議論する価値があります:))。編集:はい、投稿を編集しました。
P.ウィンドリッジ

あなたのテストデータは母集団を代表している/ devサンプルにない母集団の一部をカバーしていると思いますか?元の開発サンプルに何らかの欠陥がありますか?
P.ウィンドリッジ

@ P.Windridgeよく、私の質問は単なる仮説です。2番目のコメントについて、エンジニアが優れたモデルをトレーニングし、非代表的なデータを提供することを期待すべきではないと思います。
ユリイ

1
検証なしでモデルを出荷する多くの状況は想像できません。むしろ、テストサンプルのサイズを小さくすることを検討します(検証するのに十分な大きさであることを条件に!)。おそらくもっと興味深い議論は、/ all /データに基づいて/ selecting /のモデルの長所/短所について、そしてサブサンプルを使用してそれをトレーニングし、残りで検証することです。
P.ウィンドリッジ

1
同様のquestion = stats.stackexchange.com/ questions/ 174026 / 、より多くの議論を使用できると思うが
-P.Windridge

回答:


15

サンプル全体を再フィッティングした後、ほとんどの場合、より良いモデルが得られます。しかし、他の人が言ったように、あなたは検証を持っていません。これは、データ分割アプローチの根本的な欠陥です。データを分割すると、モデル全体のサンプルの違いを直接モデル化する機会が失われるだけでなく、サンプル全体がおそらく15,000を超える被験者でない限り不安定です。これが、精度と安定性を実現するために10回の交差検証を100回繰り返す必要がある理由です(サンプルサイズによって異なります)。ブートストラップは、機能選択のタスクがどれほど困難でarbitrary意的であるかも明らかにします。

「外部」検証の問題については、Biomedical Research Section 10.11のBiostatisticsで詳しく説明しています。


私の分野の用語(分析化学)は、トレーニングの開始前(開始前)に行うデータの分割を内部検証と見なします。外部検証は、専用の検証研究を行うこととリングトライアルの間のどこかで始まります。
cbeleitesはモニカを

0

再度トレーニングする必要はありません。結果を報告するときは、テストデータの結果をよりよく理解できるため、常にテストデータの結果を報告します。テストデータセットにより、モデルがサンプル外のデータに対してどの程度適切に実行される可能性があるかをより正確に確認できます。


4
テストセットのパフォーマンスを報告し、その後、完全なデータでモデルを再トレーニングして、パフォーマンスが向上することを正しく期待します。これは、ベストモードとより多くのデータを使用するためです。私の推論に欠陥はありますか?
ユーリー

テスト後に、より多くのデータを収集してから、データを再分割し、再度トレーニングし、再テストして、再テストの結果を報告することができます。
ウマル

6
サンプル全体を見積もらないことで、より高い効率の機会を放棄します。これは正当化されません。上記のユリイのコメントにも同意します。
リチャードハーディ

@RichardHardy、私のコメントのどこが悪いの?
ウマル

それは私の最後のコメントで綴られています。モデルを推定するためにすべてのデータを利用しないことにより、利用可能な最高の効率を達成しています。どうしてですか?
リチャードハーディ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.