パフォーマンスを測定するために使用するデータセットは、機能を調整するために使用したものと同じであるため、相互検証の外でハイパーパラメーターチューニングを実行すると、外部の有効性のバイアスが高い推定値につながることがあります。
私が不思議に思っているのはこれがどれほど悪い問題かということです。これにより、調整するパラメーターが非常に多くなるため、機能の選択が本当に悪いことを理解できます。しかし、LASSO(正則化強度が1つだけのパラメーター)のようなもの、または機能選択なしのランダムフォレスト(いくつかのパラメーターはあるが、ノイズ機能の追加/ドロップほど劇的ではない)を使用している場合はどうでしょうか?
これらのシナリオでは、トレーニングエラーの推定値がどれほどひどく楽観的であると予想できますか?
ケーススタディ、論文、逸話など、これに関する情報をいただければ幸いです。ありがとう!
編集:明確にするために、トレーニングデータのモデルパフォーマンスの推定については話していません(つまり、相互検証をまったく使用していません)。「クロス検証の外側のハイパーパラメーター調整」とは、個々のモデルのパフォーマンスを推定するためだけにクロス検証を使用することを意味しますが、ハイパーパラメーター調整手順内でオーバーフィットを修正するための外側の2番目のクロス検証ループは含みませんトレーニング手順中のオーバーフィッティング)。たとえば、こちらの回答をご覧ください。