私の主な質問は、k-foldクロス検証がトレーニング/検証/テストセット(このようなコンテキストにまったく当てはまる場合)のコンテキストにどのように適合するかを理解しようとすることです。
通常、人々はデータをトレーニング、検証、およびテストセットに分割することを話します。たとえば、Andrew Ngのコースごとに60/20/20の比率で-モデルトレーニングの最適なパラメーターを識別するために検証セットが使用されます。
ただし、データ量が比較的少ない場合に、より代表的な精度測定値を取得するためにk分割交差検証を使用したい場合、k分割交差検証を実行すると、この60/20/20分割が正確に行われます。シナリオ?
たとえば、実際にトレーニングセットとテストセット(データの80%)を組み合わせ、それらに対してk分割交差検証を行って精度測定値(明示的な「テストセット」を持つことで効果的に破棄)を取得することを意味しますか?もしそうなら、どのトレーニング済みモデルを使用しますか?たとえば、aとbの考えられる答えの1つは、おそらくベストフォールドモデルを使用することです。