FrançoisCholletのPythonによるディープラーニングでは、次のように述べています。
その結果、検証セットでのパフォーマンスに基づいてモデルの構成を調整すると、モデルがモデルで直接トレーニングされない場合でも、検証セットへの過剰適合がすぐに発生する可能性があります。
この現象の中心は、情報漏えいの概念です。検証セットでのモデルのパフォーマンスに基づいてモデルのハイパーパラメーターを調整するたびに、検証データに関するいくつかの情報がモデルにリークします。これを1つのパラメーターに対して1回だけ実行すると、非常に少数の情報が漏洩し、検証セットはモデルを評価するための信頼性を維持します。ただし、これを何度も繰り返すと、1つの実験を実行し、検証セットを評価し、結果としてモデルを変更すると、検証セットに関するますます重要な情報がモデルにリークされます。
ハイパーパラメータを調整するときに検証データのモデルパフォーマンスを評価すると、検証データに関する情報が漏洩するのはなぜですか?
ところで:これは、これを実行する頻度だけでなく、最適化中のパフォーマンス評価(ターゲット関数)のランダムな不確実性にも依存します。
—
cbeleitesはSXに不満18'28
@cbeleitesすみません、それはどういう意味ですか?
—
fabiomaia
最適化に使用される検証結果が完全な場合(つまり、系統的エラーでもランダムエラーでもない場合)は、最適化によって真に最適なモデルが選択され、過剰適合がなく、選択したモデルの別の完全な検証によってまったく同じ結果が得られます。最適化中に変動する要因によって変化しない限り、最適化は系統誤差(バイアス)を許容することもできます。次に、パフォーマンスの見積もりにランダムなエラー(分散の不確実性)がある場合に何が起こるかを考えます。実際のパフォーマンスの「ランドスケープ」の上にノイズが発生します。
—
cbeleitesが19:17にSX
このノイズにより、一部のポイント(ハイパーパラメーター設定)が実際よりも見栄えがよくなる場合があるため、これらのハイパーパラメーター設定が誤って(そして誤って)選択される可能性があります。これが発生する確率は、a)このようなパフォーマンス値を確認する回数、およびb)(実際のパフォーマンスの増加と比較して)実際のパフォーマンスの上にあるノイズの量とともに増加します。これは、検証結果の再利用がデータ漏洩である理由ではなく、それぞれの過剰適合がどのように発生し、予想される問題がどれほど深刻であるか、つまりコメントのみについてです。
—
cbeleitesは19:34にSX