相互検証後に完全なデータセットでトレーニングすることは常に良い考えですか?別の言い方をすれば、データセット内のすべてのサンプルでトレーニングを行っても、この特定のフィッティングがオーバーフィットするかどうかを確認できないのですか?
問題の背景:
私が持っていると言うモデルの家族によってパラメータ。また、データポイントのセットがあり、データを最も一般化するモデルを選択するために、k分割交差検証を使用してモデル選択を行うとします。
モデルの選択では、たとえば、各候補に対してk分割交差検証を実行することにより、検索(たとえば、グリッド検索)を実行できます。交差検証の各フォールドで、学習モデルます。
交差検証のポイントは、これらの各フォールドについて、「見えないデータ」でテストすることにより、学習したモデルに過剰適合があるかどうかを確認できることです。結果に応じて、グリッド検索でのクロス検証中に最適化されたパラメーターについて学習したモデル選択できます。
ここで、モデルの選択後に、データセット内のすべてのポイントを使用し、できればより良いモデルを学習したいと考えています。このために、モデル選択中に選択したモデルに対応するパラメーター使用し、完全なデータセットでトレーニングした後、新しい学習モデル取得します。問題は、トレーニングのためにデータセットのすべてのポイントを使用 する場合、この新しい学習モデル目に見えないデータにオーバーフィットするかどうかを確認できないことです。この問題を考える正しい方法は何ですか?