私は繰り返しk-foldクロス検証を使用し、クロス検証のさまざまな実行のフォールド全体のグランド平均として計算された平均(感度、特異度などの評価メトリックの)を報告しています。
ただし、分散をどのように報告すべきかはわかりません。ここで繰り返しクロスバリデーションについて議論する多くの質問を見つけましたが、繰り返しクロスバリデーションテストの分散の問題に明確に答えていることを知っているものはありません。
合計分散は、1)モデルの不安定性と2)サンプルサイズの制限によるものであることを理解しています。
繰り返しk分割交差検証の分散を計算するには、4つの異なるアプローチがあるようです。
1)相互検証の実行における推定平均パフォーマンスメトリックの分散(たとえば、精度)は、分散の有効な推定ですか?
2)実行固有の分散をプールすることによるプールされた分散(クロス検証テストの実行の異なるフォールドにわたって計算されます)。
3)大きなベクターで実行されたクロス検証の異なるフォールドからの分類結果を連結する。たとえば、各フォールドのテストデータの数が10で、10倍のCVがある場合、反復の結果のベクトルのサイズは100になります。ここで、クロス検証テストを10回繰り返すと、サイズ100の10個のベクトルがあり、各ベクトルには10倍のCV実行の分類結果が含まれています。ここで、平均値と分散をシングルランCVの場合として計算します。
4)分散が外部分散と予想される内部分散の合計であることも読みました(式2および3 in 1)。私が正しく理解している場合、外部の分散は繰り返し固有の平均パフォーマンスの分散であり、内部の分散は相互検証の実行のさまざまなフォールドにわたる分散です。
繰り返しの相互検証テストのために報告するのに適切な差異について、あなたの助けとガイダンスを大いに感謝します。
おかげで、