回答:
選択できるエラーメトリックのプールは、分類と回帰で異なります。後者では、1つの連続値を予測しようとし、分類を使用して、「健康」または「健康ではない」などの離散クラスを予測します。あなたが述べた例から、二乗平均誤差は回帰に適用可能であり、AUCは2つのクラスでの分類に適用されます。
分類についてもう少し詳しく説明します。ROC曲線の下の領域であるAUCをメジャーとして言及しました、これは通常、2つのクラスを持つバイナリ分類問題にのみ適用されます。3つ以上のクラスのROC曲線を作成する方法はありますが、2つのクラスのROC曲線の単純さを失います。さらに、ROC曲線は、選択した分類子が各予測に関連付けられた何らかの種類のスコアを出力する場合にのみ構築できます。たとえば、ロジスティック回帰では、2つのクラスのそれぞれの確率が得られます。ROC曲線は単純であることに加えて、データセット内の正と負のラベルが付けられたインスタンスの比率の影響を受けず、しきい値の選択を強制しないという利点があります。それでも、ROC曲線だけでなく、他の視覚化も確認することをお勧めします。正確なリコールカーブとコストカーブを確認することをお勧めします。1つの真のエラー測定、それらはすべて長所と短所を持っています。
この点で参考になった文献は次のとおりです。
分類子が何らかのスコアを提供しない場合、真の陽性、偽陽性、真の陰性、偽陰性の数を含む混同行列から取得できる基本的な尺度にフォールバックする必要があります。上記の視覚化(ROC、精度想起、コスト曲線)はすべて、分類子のスコアの異なるしきい値を使用して取得したこれらのテーブルに基づいています。この場合の最も一般的な尺度は、おそらくF1-Measureです。
すでに存在する答えにもう少し考えを加えましょう。
研究デザインに応じて、正しくまたは誤分類されたサンプルの全体的な割合は適切な要約であるかどうかであり、そこから導き出せる結論は研究デザインにも依存します:テストデータは、前の確率(有病率)を反映していますか?クラス?分類子が使用されることになっている母集団に対して?それは層別化された方法で収集されましたか?これは、分類器のほとんどのユーザーが予測値により興味を持っているという事実と密接に関連していますが、感度と特異性ははるかに簡単に測定できます。
一般的なガイドラインについて尋ねます。一般的なガイドラインの1つは、知っておく必要があることです
これらの質問に答えられない限り、有用な指標を見つけることはできないと思います。
分類子の検証にも無料の昼食がないようなものです。
予想される誤分類エラー率は、私が使用し、最も頻繁に見た方法です。ROCのAUCは、分類ルールのセットの尺度です。特定の分類子を別の分類子と比較することが目的の場合、AUCは適切ではありません。分類ルールのパフォーマンスを最も直接的に表しているため、何らかの形式の分類エラーが最も理にかなっています。
再代入推定値の大きな偏りとleave-one-outの大きな分散のため、多くの作業が分類エラー率の適切な推定値を見つけることに費やされました。ブートストラップとスムーズな推定は考慮されています。たとえば、クロスバリデーションに対するブートストラップの改善に関するJASA 1983のEfronの論文を参照してください。
これは、 EfronとTibshiramiによる1995年のスタンフォード大学のテクニカルレポートで、私自身の研究の一部を含む文献をまとめたものです。