非常に興味深い質問です。あなたが出した論文を読む必要があります...しかし、これは答えの方向に私たちを始めるでしょう。
私は通常、この問題に非常に実用的な方法で取り組んでいます。新しいランダム分割を使用してk分割交差検証を繰り返し、各反復で通常どおりパフォーマンスを計算します。そのため、テストサンプル全体は各反復で同じであり、違いはデータの異なる分割から生じます。
これは、たとえば、観測されたパフォーマンスの5〜95パーセンタイルとして報告します。最大交換nk−1
サイドノート:私はとにかくサンプルサイズを必要とする数式を使用できません。私のデータは構造がクラスター化または階層化されているため(同じケースの多くの類似した、しかし繰り返されない測定、通常は同じ標本の数百の異なる場所)、有効なサンプルサイズがわかりません。
ブートストラップとの比較:
反復は新しいランダム分割を使用します。
主な違いは、リサンプリングの有無(ブートストラップ)と置換なし(cv)です。
≈
ブートストラップは、いくつかの統計的性質の点でcvよりも利点があります(漸近的に正しい。おそらく、適切な推定値を得るために必要な反復回数が少ない)
ただし、cvを使用すると、次のことが保証されるという利点があります。
- 個別のトレーニングサンプルの数はすべてのモデルで同じです(学習曲線を計算する場合に重要)
- 各サンプルは各反復で1回だけテストされます
一部の分類方法では繰り返しサンプルが破棄されるため、ブートストラップは意味をなしません
パフォーマンスの分散
簡単な答え:はい、{0,1}の結果のみが存在する状況での分散について話すのは理にかなっています。
二項分布を見てください(k =成功、n =テスト、p =成功の真の確率=平均k / n):
σ2(k)=np(1−p)
pp^
- フライス:レートとプロポーションの統計的手法
- Forthofer and Lee:Biostatisticsには素晴らしい紹介があります。
p^=kn
σ2(p^)=p(1−p)n
これは、分類器のパフォーマンスを測定するための不確実性が、テストされたモデルの真のパフォーマンスpとテストサンプルの数にのみ依存することを意味します。
クロス検証では、仮定します
kの「代理」モデルは、通常すべてのサンプルから構築する「実際の」モデルと同じ真のパフォーマンスを備えています。(この仮定の内訳は、よく知られている悲観的なバイアスです)。
kの「代理」モデルは同じ真のパフォーマンス(同等であり、安定した予測を持つ)であるため、kテストの結果をプールすることができます。
もちろん、cvの1回の反復のk個の「代理」モデルだけでなく、k回のcvのi回の反復のkiモデルもプールできます。
なぜ反復するのですか?
反復が伝える主なことは、モデル(予測)の不安定性、つまり、同じサンプルに対する異なるモデルの予測の分散です。
p^
はい、これは重要な情報です。
nbootstrapk⋅niter. cvn−1≈nσ2(p^)=p(1−p)n
pknp^n
モデルの不安定性を観察する場合、プールされた平均は実際のパフォーマンスのより良い推定値です。反復間の分散は重要な情報であり、サイズnのテストセットで予想される最小分散と、すべての反復にわたる真のパフォーマンス平均パフォーマンスと比較できます。