K分割交差検証から混同行列はどのように報告されますか?


18

K = 10倍でK-fold交差検証を行うと仮定します。フォールドごとに1つの混同マトリックスがあります。結果を報告するとき、平均混同マトリックスを計算するべきですか、それとも単に混同マトリックスを合計する必要がありますか?

回答:


11

モデルのパフォーマンスをテストする場合(つまり、パラメーターを最適化しない場合)、通常、混同マトリックスを合計します。このように考えると、データを10個の異なるフォールドまたは「テスト」セットに分割しました。モデルを9/10のフォールドでトレーニングし、最初のフォールドをテストして、混同マトリックスを取得します。この混同マトリックスは、データの1/10の分類を表します。次の「テスト」セットで分析を再度繰り返し、データの別の1/10を表す別の混同マトリックスを取得します。この新しい混同マトリックスを最初の混同マトリックスに追加すると、データの20%になります。すべてのフォールドを実行し、すべての混同行列を合計し、最終的な混同行列がすべてのデータに対するそのモデルのパフォーマンス表すまで続行します。混同マトリックスを平均化することはできますが、実際には累積マトリックスから追加情報を提供することはなく、折り畳みがすべて同じサイズでない場合はバイアスがかかる場合があります。

-これは、データの非繰り返しサンプリングを前提としています。サンプリングを繰り返してもこれが異なるかどうかは完全にはわかりません。何かを学ぶか、誰かが方法を勧めると更新されます。


ありがとう、cdeterman。モデルの選択(チューニングパラメーターの最適化)はどうですか?
ジョンM

@JohnMを使用すると、各フォールドを個別に見て、完全なモデルに最適なパラメーターを指定することができます。両方を組み合わせたい場合は、ネストされたcvを調べてください。
-cdeterman
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.