回答:
モデルのパフォーマンスをテストする場合(つまり、パラメーターを最適化しない場合)、通常、混同マトリックスを合計します。このように考えると、データを10個の異なるフォールドまたは「テスト」セットに分割しました。モデルを9/10のフォールドでトレーニングし、最初のフォールドをテストして、混同マトリックスを取得します。この混同マトリックスは、データの1/10の分類を表します。次の「テスト」セットで分析を再度繰り返し、データの別の1/10を表す別の混同マトリックスを取得します。この新しい混同マトリックスを最初の混同マトリックスに追加すると、データの20%になります。すべてのフォールドを実行し、すべての混同行列を合計し、最終的な混同行列がすべてのデータに対するそのモデルのパフォーマンスを表すまで続行します。混同マトリックスを平均化することはできますが、実際には累積マトリックスから追加情報を提供することはなく、折り畳みがすべて同じサイズでない場合はバイアスがかかる場合があります。
注 -これは、データの非繰り返しサンプリングを前提としています。サンプリングを繰り返してもこれが異なるかどうかは完全にはわかりません。何かを学ぶか、誰かが方法を勧めると更新されます。