短い答え:それは間違いでも新しいものでもありません。
この検証スキームについては、「設定の検証」という名前で論じてきました。15年前、論文*を作成するときに説明しましたが、実際には使われていなかったため、実際にはそれを参照することはありませんでした。
ウィキペディアは、反復ランダムサブサンプリング検証またはモンテカルロクロス検証と同じ検証スキームを参照しています
理論的な観点から、この概念は私たちにとって興味深いものでした。
- これは、通常ホールドアウトと呼ばれる同じ数値の別の解釈です(推定値が使用されるモデルだけが異なります:ホールドアウト推定値は、テストされたモデルの正確なパフォーマンス推定値として使用されます。このセットまたはモンテカルロ検証は、代理モデルとしてのテスト済みモデルと解釈として、データセット全体に基づいて構築されたモデルのパフォーマンス評価と非常に同じ数します-通常、相互検証またはブートストラップ外検証の見積もりで行われます)
- そしてそれはどこかの間にあります
- より一般的な相互検証手法(置換によるリサンプリング、全データモデルの推定値としての解釈)、
- ホールドアウト(上記を参照、同じ計算+数値、通常N回の反復/反復なし、ただし異なる解釈)
- およびブートストラップ外(N回の反復/繰り返しはブートストラップ外れの典型的なものですが、これがホールドアウトに適用されるのを見たことはありません。[残念ながら]相互検証でめったに行われません)。
* Beleites、C。バウムガートナー、R。ボーマン、C; ソモルジャイ; シュタイナー、G。Salzer、R.&Sowa、MGスパースデータセットを使用した分類誤差の推定における分散の減少、Chemom Intell Lab Syst、79、91-100(2005)。
N = 1の「検証の設定」エラーは図で非表示になっています。6(つまり、そのバイアス+分散は、指定されたデータから再構築できますが、明示的に指定されていません。)
しかし、分散に関しては最適ではないようです。2番目の手順に賛成または反対の議論はありますか?
さて、上記の論文では、ブートストラップ外と繰り返し/反復の合計エラー(bias²+ variance)を見つけました k-交差検証はかなり似ています(oobの分散は多少低くなりますが、バイアスは高くなりますが、このトレードオフのどれがどれくらいの割合で置き換えの有無によるリサンプリングが行われるか、およびどれくらいが原因で行われるかを確認するためのフォローアップは行いませんでした。約1:2の異なる分割比(obbの場合)。
ただし、サンプルサイズが小さい状況での正確さについて話していることに注意してください。分散の不確実性の主な原因は、すべてのリサンプリングスキームで同じです。つまり、テスト用の限られた数の真のサンプルで、OOBでも同じです。 、交差検証またはセット検証。反復/反復により、(サロゲート)モデルの不安定性によって引き起こされる分散を減らすことができますが、サンプルサイズが限られているため、分散の不確実性を減らすことはできません。
したがって、十分な数の反復/反復Nを実行すると仮定すると、これらの検証スキームのパフォーマンスに実際に関連する違いは期待できません。
ただし、1つの検証スキームは、リサンプリングによってシミュレートしようとするシナリオに適している場合があります。