相互検証の誤用（最適なハイパーパラメーター値のパフォーマンスの報告）

最近、特定のデータセットでk-NN分類器を使用することを提案する論文に出会いました。著者は、利用可能なすべてのデータサンプルを使用して、さまざまなk値のk分割交差検証を実行し、最適なハイパーパラメーター構成の交差検証結果を報告しました。

私の知る限り、この結果には偏りがあり、ハイパーパラメーター最適化の実行に使用されないサンプルの精度推定値を取得するために、別のテストセットを保持する必要がありました。

私は正しいですか？この相互検証の誤用について説明した参考文献（できれば研究論文）を提供してください。

— ダニエル・ロペス
ソース

個別のテストセットの代わりに、いわゆるネストされたクロス検証を使用できることに注意してください。このサイトでこの用語を検索すると、多くの議論が見つかります。特に、受け入れられた回答で引用された2番目の論文の著者の1人である@DikranMarsupialによる回答を探してください。

— アメーバは、モニカを復活させる

はい、k-fold CV結果のみのレポートには問題があります。たとえば、次の3つの出版物を目的に使用して（もちろん他にもありますが）、人々を正しい方向に向けることができます。

私は個人的には、数学よりも平易な英語で問題を述べようとするので好きです。

— オタク
ソース

より正確には、問題はクロス検証の結果を報告するのではなく、選択/最適化プロセスの一部であったパフォーマンスの見積もりを報告することです。

— cbeleitesはモニカをサポートします

また、ここでの問題が特定のデータセットでトレーニングされた特定のモデルのパフォーマンスである場合、Bengio＆Grandvaletの論文はあまり重要ではないことに注意してください。同じ母集団の新しいデータセットに適用される同じトレーニングアルゴリズムのパフォーマンスについて説明します同じソースからサンプリングされた同じサイズの異なるデータセット間の分散を含めるため-特定のデータセットでトレーニングされたモデルの予測パフォーマンスについて話している場合は問題になりません）。

— cbeleitesはモニカをサポートします

@cbeleites正しく見つけました：回答の最初のドラフトで、誤って2番目の参照ではなく3番目の参照を選択しましたが、後で既に受け入れられた回答から情報を削除したくありませんでした。間の（回答のバージョンを参照）。それにもかかわらず、私は質問が主に報告されたエラーに関するものであったと思います、そして、それらの論文はこの点に関して私がCVで間違ってできることのいくつかを非常によく指摘します。

— geekoverdose