相互検証を使用する場合の予測間隔の計算

標準偏差の推定値は次の方法で計算されますか？

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}.$

（http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation）

10分割交差検証からサンプリングされた予測精度について（予測セットは独立していますが）トレーニングセット間の実質的なオーバーラップのため、各フォールド間で計算される予測精度が依存しているのではないかと心配しています。これについて説明しているリソースがあれば非常に役立ちます。

— クリストファードリアン
ソース

考えられる関心：K分割交差検定予測誤差の数式？、k分割交差検定での分散推定。

— chl

また、興味深いのは、linear-regression-prediction-intervalです。

— ガン-モニカの復活

（予測セットは独立していますが）トレーニングセット間の実質的なオーバーラップのため、各フォールド間で計算される予測精度が依存しているのではないかと心配しています。

私見トレーニングセット間の重複はここで大きな懸念である必要はありません。つまり、モデルが安定しているかどうかを確認することはもちろん重要です。安定とは、相互検証サロゲートモデルの予測が同等であることを意味します（つまり、独立したケースでは、これらすべてのモデルで同じ予測が得られます）。実際、通常、相互検証では、サロゲートモデル間だけでなく、すべてでトレーニングされたモデルと同等であることを主張しますケース。したがって、この依存関係はむしろ、私たちが望むものの結果です。

$n$

独立したテストセットを使用したテストと比較した結果は何ですか？

テストケースによる分散に加えて、代理モデルの不安定性による分散に直面するため、相互検証推定は、同じサイズの独立したテストセットで最終モデルをテストするよりも分散が大きくなる可能性があります。
ただし、モデルが安定している場合、この分散は小さく/無視できます。さらに、このタイプの安定性を測定できます。
測定できないのは、データセット全体が、それが抽出された母集団と比較される方法です。これには、最終モデルのバイアスの一部が含まれます（ただし、小さな独立したテストセットにもバイアスがある可能性があります）。これは、対応する分散を交差検証で推定できないことを意味します。
アプリケーションの実践（これらのデータでトレーニングされたモデルのパフォーマンス）では、予測区間の計算は、分散交差検証のどの部分が検出できないかよりもIMHOの方が重要であるという問題に直面します。
- 相互検証では、時間的に独立しているケースのパフォーマンスをテストできません（通常、将来測定されるケースには予測が必要です）
- データに不明なクラスターが含まれている可能性があり、クラスター外のパフォーマンスが重要な場合があります。クラスター化されたデータは基本的に、相互検証で説明できるものですが、クラスター化について知っておく必要があります。
これらは単なる相互検証と独立したテストセットの違いだけではありません。基本的には、座って検証テストを設計する必要があります。そうしないと、「独立した」テストセットがそれほど独立していないという高いリスクがあります。それが終わったら、どの要素が実際に重要である可能性が高く、無視できるかについて考えることができます。十分な検討の結果、相互検証は十分であり、考えられる情報の取得に比べて独立した検証は非常に高額になるため、賢明なことであるという結論に達するかもしれません。

$s_{CV}$ $RMSE_{CV}$

— cbeleitesはSXに不満
ソース