私見ホールドアウト検証の最悪の特性の1つは統計的ではなく心理的なものです。再検証の検証で発生する重大な問題は、ホールドアウトでも同様に発生する可能性があり、同様に発生します(不適切な分割から発生する問題)。
それ以外は、IMHOはリサンプリングとほぼ同じです(少なくとも、実際にそれが行われたのを見たので)。違いは
- 実際にテストされた異なるケースの総数は少なくなります(その結果、推定値は不確かになります)。
- ホールドアウトを使用した場合、パフォーマンスは実際にテストされたモデルに対して主張され、ホールドアウトトレインとホールドアウトテストデータから構築された実際にテストされていないモデルに対して主張されません。リサンプリングでは、測定されたパフォーマンスは、後者のモデルのパフォーマンスの良い近似であると主張しています。しかし、私はまた、この方法( "セット検証")を使用したホールドアウトアプローチを見てきました。
Esbensen and Geladi:Principles of Proper Validation:use and abuse of re-sampling for validation、Journal of Chemometrics、24(3-4)、168-187は、実際の用語ではどちらもデータセットの非常に良い近似ではないと主張しています(検証実験)非常に興味深いパフォーマンス特性を測定できます。
トレーニングデータにオーバーフィットできるのと同じ方法で、テストデータにオーバーフィットする可能性があります。
他の検証と同じ:データ駆動型モデリング/モデル選択を行う場合は、別の独立したレベルの検証が必要です。ここで、ホールドアウトスキームとリサンプリングスキームの違いはわかりません。
最初にホールドアウト検証を使用してモデルを構築およびテストし、次に検証ステップとしてホールドアウトセットを数回再描画して、(テストセットの)予測誤差の推定値がテストのサンプリングエラーに対してロバストであることを示しますセットする。これは何らかの理由で悪い考えですか?
私はそう思います、はい:入れ子になったセットアップを使用する必要があります
(ホールドアウトの検証も可能であり、繰り返す必要があることを示唆したい場合を除きます)これは、反復/繰り返しのセット検証とは解釈のみが異なる有効なアプローチです:パフォーマンスステートメントが実際にテストされた多くのモデルに関するものか、すべてのデータで構築された1つのモデルに外挿されるかどうか)。