ホールドアウト検証は、k倍のCVよりも「新しいデータを取得する」ためのより良い近似ですか？

数週間前に私が質問に出した答えを再考してきました

ホールドアウト相互検証は、デモンストレーションに繰り返し使用できる単一のテストセットを生成します。これは多くの点で否定的な特徴であることに私たち全員が同意しているように思われます。さらに、トレーニングデータにオーバーフィットできるのと同じ方法で、テストデータにオーバーフィットする可能性があります。

ただし、ホールドアウトされたサンプルの静的な性質は、k倍のCVよりも「より多くのデータを取得する」ためのより良い近似であり、倍数間の平均化の問題を回避しているように思えます。しかし、私はこの感情の統計的根拠を思い付くことができません。私の直感に論理はありますか？

たとえば、今後のプロジェクトで私が念頭に置いているのは、最初にホールドアウト検証を使用してモデルを構築およびテストし、次に検証ステップとしてホールドアウトセットを数回再描画して、予測誤差の推定値を示します（テストセット）は、テストセットのサンプリングエラーに対して堅牢です。これは何らかの理由で悪い考えですか？この質問は以前に尋ねられましたが、回答はありませんでした。

cross-validation

— シャドウトーカー
ソース

私見ホールドアウト検証の最悪の特性の1つは統計的ではなく心理的なものです。再検証の検証で発生する重大な問題は、ホールドアウトでも同様に発生する可能性があり、同様に発生します（不適切な分割から発生する問題）。

それ以外は、IMHOはリサンプリングとほぼ同じです（少なくとも、実際にそれが行われたのを見たので）。違いは

実際にテストされた異なるケースの総数は少なくなります（その結果、推定値は不確かになります）。
ホールドアウトを使用した場合、パフォーマンスは実際にテストされたモデルに対して主張され、ホールドアウトトレインとホールドアウトテストデータから構築された実際にテストされていないモデルに対して主張されません。リサンプリングでは、測定されたパフォーマンスは、後者のモデルのパフォーマンスの良い近似であると主張しています。しかし、私はまた、この方法（ "セット検証"）を使用したホールドアウトアプローチを見てきました。

Esbensen and Geladi：Principles of Proper Validation：use and abuse of re-sampling for validation、Journal of Chemometrics、24（3-4）、168-187は、実際の用語ではどちらもデータセットの非常に良い近似ではないと主張しています（検証実験）非常に興味深いパフォーマンス特性を測定できます。

トレーニングデータにオーバーフィットできるのと同じ方法で、テストデータにオーバーフィットする可能性があります。

他の検証と同じ：データ駆動型モデリング/モデル選択を行う場合は、別の独立したレベルの検証が必要です。ここで、ホールドアウトスキームとリサンプリングスキームの違いはわかりません。

最初にホールドアウト検証を使用してモデルを構築およびテストし、次に検証ステップとしてホールドアウトセットを数回再描画して、（テストセットの）予測誤差の推定値がテストのサンプリングエラーに対してロバストであることを示しますセットする。これは何らかの理由で悪い考えですか？

私はそう思います、はい：入れ子になったセットアップを使用する必要があります
（ホールドアウトの検証も可能であり、繰り返す必要があることを示唆したい場合を除きます）これは、反復/繰り返しのセット検証とは解釈のみが異なる有効なアプローチです：パフォーマンスステートメントが実際にテストされた多くのモデルに関するものか、すべてのデータで構築された1つのモデルに外挿されるかどうか）。

— cbeleitesはSXに不満
ソース