標準偏差の推定値は次の方法で計算されますか?
(http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation)
10分割交差検証からサンプリングされた予測精度について (予測セットは独立していますが)トレーニングセット間の実質的なオーバーラップのため、各フォールド間で計算される予測精度が依存しているのではないかと心配しています。これについて説明しているリソースがあれば非常に役立ちます。
標準偏差の推定値は次の方法で計算されますか?
(http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation)
10分割交差検証からサンプリングされた予測精度について (予測セットは独立していますが)トレーニングセット間の実質的なオーバーラップのため、各フォールド間で計算される予測精度が依存しているのではないかと心配しています。これについて説明しているリソースがあれば非常に役立ちます。
回答:
(予測セットは独立していますが)トレーニングセット間の実質的なオーバーラップのため、各フォールド間で計算される予測精度が依存しているのではないかと心配しています。
私見トレーニングセット間の重複はここで大きな懸念である必要はありません。つまり、モデルが安定しているかどうかを確認することはもちろん重要です。安定とは、相互検証サロゲートモデルの予測が同等であることを意味します(つまり、独立したケースでは、これらすべてのモデルで同じ予測が得られます)。実際、通常、相互検証では、サロゲートモデル間だけでなく、すべてでトレーニングされたモデルと同等であることを主張しますケース。したがって、この依存関係はむしろ、私たちが望むものの結果です。
独立したテストセットを使用したテストと比較した結果は何ですか?
ただし、モデルが安定している場合、この分散は小さく/無視できます。さらに、このタイプの安定性を測定できます。
測定できないのは、データセット全体が、それが抽出された母集団と比較される方法です。これには、最終モデルのバイアスの一部が含まれます(ただし、小さな独立したテストセットにもバイアスがある可能性があります)。これは、対応する分散を交差検証で推定できないことを意味します。
アプリケーションの実践(これらのデータでトレーニングされたモデルのパフォーマンス)では、予測区間の計算は、分散交差検証のどの部分が検出できないかよりもIMHOの方が重要であるという問題に直面します。
これらは単なる相互検証と独立したテストセットの違いだけではありません。基本的には、座って検証テストを設計する必要があります。そうしないと、「独立した」テストセットがそれほど独立していないという高いリスクがあります。それが終わったら、どの要素が実際に重要である可能性が高く、無視できるかについて考えることができます。十分な検討の結果、相互検証は十分であり、考えられる情報の取得に比べて独立した検証は非常に高額になるため、賢明なことであるという結論に達するかもしれません。