重要な違いは、あなたがしたいかどうかです。
- [最も一般的なケース]:(データと同じ母集団から得られた)新しい被験者のパフォーマンスの見積もりを作成します。
- サンプルと同じ対象からの新しい観測のパフォーマンスの推定を作成します。
より一般的なケースは、ケース番号(1)です。たとえば、緊急治療室に来る人の心臓発作をどの程度うまく予測できますか?(1)の場合は、ほぼ確実に、(b)レコード単位のクロス検証ではなく、(a)サブジェクト単位のクロス検証を行う必要があります。ケース(1)でレコードごとの検証を行うと、新しい被験者のパフォーマンスについて、不当に高くて偽の推定値につながる可能性があります。
私はあなたが何をしようとしているのかを正確に理解していません(そして、おそらくそれは独学ですので、質問は完全に現実的ではありません)。どちらのケースにいるかはわかりません。あまり一般的でないケース(2)の場合は、レコードごとの検証で問題ない可能性があります。
統計の一般的なテーマは、何が独立していて何が相関しているのかを注意深く考えることです。一般的に言えば、独立した観察は異なる主題になる傾向があります。新しい科目の成績を予測したい場合は、トレーニングしていない科目をテストする必要があります。
なぜレコード単位ではなくサブジェクト単位の相互検証が必要なのですか?
典型的な設定では、同じ個人の繰り返しの観察は、特徴に条件付けした後でも互いに相関しています。したがって、レコードごとの相互検証により、テストセットはトレーニングセットから独立していません。完全な相関の極端なケースでは、トレーニングセットとテストセットでまったく同じ観測が得られます。あなたはテストセットでトレーニングするでしょう!交差検証で測定されたパフォーマンスは、新しい被験者のパフォーマンスを予測するものではありません。
たとえば、この最近の論文では、レコードごとの相互検証を「Voodoo Machine Learning」と呼んでいます。
対象が少ないのでどうするか...
k=n
トレーニング用のデータを最大化するためにできることは、相互検証の対象を1つ除外することです。反復ごとに、異なるホールドアウトサブジェクトでテストし、その他すべてのトレーニングを行います。
n=38