編集:交差検証に基づいてモデルを調整または選択することは、本質的に予測誤差(たとえば、平均二乗予測誤差)を最小限に抑えることを目的としています。入力データのサブセットを条件とするモデルを選択し、左の位置で出力を予測します。直感的には、サンプルの場所以外でモデルを評価しているため、これは予測です。質問は、候補モデルのセットが入力データから独立している場合(つまり、ランダムにモデルを生成するときにデータを使用しない場合)に何が起こるかです。
この仮定は、他のモデルフィッティング手順とそれほど変わりません。たとえば、パラメーター化されたモデルで開始し、パラメーターが任意の実数である可能性がある場合、候補となるモデルの無限のセットもあります。どちらの場合も、いくつかのエラーメトリックを最小化して、可能なモデルのセットから最適なモデルを選択する必要があります。したがって、両方のモデルの選択は、いくつかのトレーニングデータ(おそらく、相互検証を使用している場合はすべてのトレーニングデータのサブセット)を条件としています。エラーメトリックを指定しないため、平均二乗誤差(MSE)であると仮定します。モデルパラメーターを選択し、トレーニングデータを条件とするMSEメトリックを想定したブラックボックス手順を使用してモデルを選択します。トレーニングデータを条件としたMSEメトリックを想定して、ランダムモデルのセットからモデルを選択します。
同じモデルを選びますか?候補モデルの異なるセットで開始したかどうかによって異なります。
データをオーバーフィットしますか?これは、最初に使用した候補モデルのセットとトレーニングデータによって異なります。
データが過剰に適合していることを知っていますか?相互検証を行うと、予測エラーをチェックできます。
元の応答:広い意味で、データにはある程度の信号があり、ノイズがあります。オーバーフィットするときは、本質的にノイズにフィットしています。
交差検証では、フィッティング時にデータの一部を除外し、除外されたポイントを予測するときにエラーを評価します。サンプル外誤差を測定するという点で、トレーニングデータとテストデータがあるのと同じです。モデルは、どの点が省略されているかに関係なく、一般化する必要があります。ノイズに適合させると、モデルは一般化しません。比較しているモデルのセットには、トレーニングデータから省略されたときにデータポイントを補間しようとするモデルが含まれていない可能性があります。モデルがこのように動作する場合(たとえば、フィットを改善するためのランダムな動作)、妥当な一般的なモデルフィッティング手順がない可能性が高く、交差検証は役に立ちません。
無限のモデルセットと無限の時間がある場合、理論的には他の手順で生成されたどのモデルよりも優れたモデルを生成できると思います。しかし、無限セットのどのモデルであるかをどのようにして知るのでしょうか?トレーニングデータを内挿するのがモデルである場合、はい、トレーニングデータにノイズがある場合はオーバーフィットします。