繰り返しk分割交差検定の分散の報告

私は繰り返しk-foldクロス検証を使用し、クロス検証のさまざまな実行のフォールド全体のグランド平均として計算された平均（感度、特異度などの評価メトリックの）を報告しています。

ただし、分散をどのように報告すべきかはわかりません。ここで繰り返しクロスバリデーションについて議論する多くの質問を見つけましたが、繰り返しクロスバリデーションテストの分散の問題に明確に答えていることを知っているものはありません。

合計分散は、1）モデルの不安定性と2）サンプルサイズの制限によるものであることを理解しています。

繰り返しk分割交差検証の分散を計算するには、4つの異なるアプローチがあるようです。

1）相互検証の実行における推定平均パフォーマンスメトリックの分散（たとえば、精度）は、分散の有効な推定ですか？

2）実行固有の分散をプールすることによるプールされた分散（クロス検証テストの実行の異なるフォールドにわたって計算されます）。

3）大きなベクターで実行されたクロス検証の異なるフォールドからの分類結果を連結する。たとえば、各フォールドのテストデータの数が10で、10倍のCVがある場合、反復の結果のベクトルのサイズは100になります。ここで、クロス検証テストを10回繰り返すと、サイズ100の10個のベクトルがあり、各ベクトルには10倍のCV実行の分類結果が含まれています。ここで、平均値と分散をシングルランCVの場合として計算します。

4）分散が外部分散と予想される内部分散の合計であることも読みました（式2および3 in 1）。私が正しく理解している場合、外部の分散は繰り返し固有の平均パフォーマンスの分散であり、内部の分散は相互検証の実行のさまざまなフォールドにわたる分散です。

繰り返しの相互検証テストのために報告するのに適切な差異について、あなたの助けとガイダンスを大いに感謝します。

おかげで、

cross-validation

— アレイン
ソース

「無料昼食なし」理論のように。リストしたすべての手順が適切であると思われるため、4つの方法のいずれかが最も適切であるとは断言できません。ただし、オプションが与えられたら、オプション3に進みます。リストにある他の手順の場合のように、より多くのデータと情報が失われることはありません。

— 弟子

1と3は、繰り返し実行間の依存関係を考慮していないため、無効と思われます。言い換えれば、k倍の繰り返し実行は、独立したデータを使用した実験の実際の繰り返しよりも互いに類似しています。

2は、同じ実行内のフォールド間の依存関係を考慮しません。

私は4について知りません。

関連する可能性のある（および落胆させる）参照は、Bengio＆Grandvalet、2004、 "K-Fold Cross-Validationの分散の不偏推定量なし"です。

— トリソロリアンサンスクリーン
ソース