現在受け入れられている答えは、残念ながら不完全です。私はその文に同意しません
交差検証の目的は、各分割で学習した母集団サンプル全体で一般化する学習パラメーターを特定することです。
これは確かに、相互検証の非常に重要なアプリケーションの1つですが、それだけではありません。通常、次の2つのことを行います。
- できる最高のモデルを構築する
- パフォーマンスの正確な印象をつかむ
ここで、アルゴリズムに応じて目的1を完了するために、いくつかのハイパーパラメーターを調整する必要がある場合がありますが、これは実際に交差検証によって行われることがよくあります。しかし、これはまだ目的2には役立ちません。これを行うには、次のように基本的に相互検証をネストする必要があります。
- データ全体をn分割する
- それぞれについて、トレーニングデータをサブフォールドに再度分割します。
- サブフォールドで相互検証を使用して適切なハイパーパラメーターを学習する
- これらのハイパーパラメーターを使用して、そのフォールドのトレーニングデータにモデルを作成します
- テストデータでモデルをテストする
- 次の折り目で繰り返す
適切なモデルを作成するには、内部相互検証が必要です。良いモデルを取得するには、そうする必要があります。ただし、モデルのパフォーマンスを適切に推定するには、相互検証スキーム内でモデル構築のプロセス全体を実行する必要があります。これには、帰属などのステップも含まれます。