私は、インタビュアーをフィッティングしすぎることについて尋ねたとき、あなたがその後に数歩進んだときに「教科書の答え」を探していたと思います。
過剰適合の症状は、トレーニングセットの分類子のパフォーマンスがテストセットの分類子のパフォーマンスよりも優れていることです。これは一般的な回答であり、妥当な概算であるため、「テキストブックの回答」と呼びます。
この回答には多くのオープンエンドがあることに注意してください。たとえば、どのくらいの違いが過剰適合ですか?。また、データセット間のパフォーマンスの違いは、必ずしも過剰適合によるものではありません。一方、過剰適合は、必ずしも2つのデータセットのパフォーマンスに有意差をもたらすとは限りません。
相互検証は、学習者(たとえば、決定木)のパフォーマンスを、以前には見られなかったデータに対して評価する手法です。ただし、オーバーフィッティングは特定のモデルを指します(たとえば、「f1」の場合、「f2」ではなくTrueを予測します)。これは、学習者がこのデータに過剰適合する傾向を示しますが、特定のモデルが過剰適合しているかどうかには答えません。
モデルを過剰適合させるには、モデルが複雑になる必要があり、それが正則化の助けでした。モデルの複雑さを制限(またはトレードオフ)します。オーバーフィッティングのもう1つの原因は、仮説セットのサイズです(可能なモデルの数と見なすことができます)。制限付き仮説セットを使用することを事前に決定することは、過剰適合を回避するもう1つの方法です。