ご存じのように、クロス検証には2つの一般的なタイプがあります。K-foldとランダムサブサンプリングです(Wikipediaで説明)。それにもかかわらず、KフォールドCVとして記述されているものが実際にランダムなサブサンプリングである論文を作成し、出版している研究者がいることを知っています。そのため、実際には、読んでいる記事の内容が実際にはわかりません。
通常、違いは目立たないため、私の質問にも当てはまります。あるタイプの結果が別のタイプの結果と大幅に異なる場合の例を考えることができますか?
ご存じのように、クロス検証には2つの一般的なタイプがあります。K-foldとランダムサブサンプリングです(Wikipediaで説明)。それにもかかわらず、KフォールドCVとして記述されているものが実際にランダムなサブサンプリングである論文を作成し、出版している研究者がいることを知っています。そのため、実際には、読んでいる記事の内容が実際にはわかりません。
通常、違いは目立たないため、私の質問にも当てはまります。あるタイプの結果が別のタイプの結果と大幅に異なる場合の例を考えることができますか?
回答:
異なる例でトレーニングするだけで、確かに異なる結果を得ることができます。2つの結果が予測可能な方法で異なるアルゴリズムまたは問題領域があることは、私には非常に疑わしいと思います。
通常、違いは目立たないため、私の質問にも当てはまります。あるタイプの結果が別のタイプの結果と大幅に異なる場合の例を考えることができますか?
違いがまったく気付かず、その場限りの例でのみそれが顕著になるかどうか、私にはまったくわかりません。相互検証とブートストラップ(サブサンプリング)の両方の方法は、設計パラメーターに大きく依存しており、この理解はまだ完全ではありません。一般に、k分割交差検証内の結果は、分割数に大きく依存するため、サブサンプリングで観察した結果とは常に異なる結果を期待できます。
適例:固定数のパラメーターを持つ真の線形モデルがあるとします。k分割交差検証を使用し(与えられた固定kを使用)、観測数を無限大にすると、k分割交差検証はモデル選択に関して漸近的に矛盾します。つまり、 0より確率も大きくはこの驚くべき結果は、「クロスバリデーションによる線形モデルの選択」6月少によるものであるアメリカの統計学会誌、88、486から494(1993)が、より多くの論文が、この調子で見つけることができます。
一般に、結果が不変ではないため、立派な統計論文は交差検証プロトコルを指定します。大規模なデータセットに対して多数の折り畳みを選択する場合、モデルの選択におけるバイアスを指摘し、修正しようとします。