分類子を評価するときにエラーメトリックを選択する方法は?


15

Kaggleコンペティションで使用されるさまざまなエラーメトリックスを見ました:RMS、平均二乗、AUCなど。エラーメトリックの選択に関する一般的な経験則は何ですか。つまり、特定の問題に対してどのエラーメトリックを使用するかをどのように知るのですか。ガイドラインはありますか?

回答:


12

選択できるエラーメトリックのプールは、分類と回帰で異なります。後者では、1つの連続値を予測しようとし、分類を使用して、「健康」または「健康ではない」などの離散クラスを予測します。あなたが述べた例から、二乗平均誤差は回帰に適用可能であり、AUCは2つのクラスでの分類に適用されます。

分類についてもう少し詳しく説明します。ROC曲線の下の領域であるAUCをメジャーとして言及しました、これは通常、2つのクラスを持つバイナリ分類問題にのみ適用されます。3つ以上のクラスのROC曲線を作成する方法はありますが、2つのクラスのROC曲線の単純さを失います。さらに、ROC曲線は、選択した分類子が各予測に関連付けられた何らかの種類のスコアを出力する場合にのみ構築できます。たとえば、ロジスティック回帰では、2つのクラスのそれぞれの確率が得られます。ROC曲線は単純であることに加えて、データセット内の正と負のラベルが付けられたインスタンスの比率の影響を受けず、しきい値の選択を強制しないという利点があります。それでも、ROC曲線だけでなく、他の視覚化も確認することをお勧めします。正確なリコールカーブとコストカーブを確認することをお勧めします。1つの真のエラー測定、それらはすべて長所と短所を持っています。

この点で参考になった文献は次のとおりです。

分類子が何らかのスコアを提供しない場合、真の陽性、偽陽性、真の陰性、偽陰性の数を含む混同行列から取得できる基本的な尺度にフォールバックする必要があります。上記の視覚化(ROC、精度想起、コスト曲線)はすべて、分類子のスコアの異なるしきい値を使用して取得したこれらのテーブルに基づいています。この場合の最も一般的な尺度は、おそらくF1-Measureです。NN×NN 2×2AA


1
NN×NN 2×2

この間違いを指摘してくれてありがとう、上の答えで修正しました。
sebp

5

すでに存在する答えにもう少し考えを加えましょう。

  • 実際、ほとんどの分類器には中間連続スコアがあり、通常、ハードクラスを割り当てるためのしきい値(t:クラスa未満、上記:クラスb)が適用されます。このしきい値を変更すると、ROCが得られます。
  • 一般に、このような曲線を1つの数値に圧縮することはお勧めできません。たとえば、誘導アルゴリズムを比較するための精度推定に対するケースを参照してください。
    同じAUCを持つ多くの異なるROCがあり、有用性は特定のアプリケーションによって大きく異なる場合があります。
  • 逆に、しきい値の選択は、お使いのアプリケーションによってほぼ決定される場合があります。
  • これらの境界の外側で分類子のパフォーマンスを調べる必要はありません。1つのメトリックを選択する場合、少なくとも他の境界のあるメトリックの関連する範囲のみを要約する必要があります。
  • 研究デザインに応じて、正しくまたは誤分類されたサンプルの全体的な割合は適切な要約であるかどうかであり、そこから導き出せる結論は研究デザインにも依存します:テストデータは、前の確率(有病率)を反映していますか?クラス?分類子が使用されることになっている母集団に対して?それは層別化された方法で収集されましたか?これは、分類器のほとんどのユーザーが予測値により興味を持っているという事実と密接に関連していますが、感度と特異性ははるかに簡単に測定できます。

  • 一般的なガイドラインについて尋ねます。一般的なガイドラインの1つは、知っておく必要があることです

    • 必要なパフォーマンスの種類(感度、特異性、予測値など。分類子の動作に関する特定の質問に答えます。ここに書いたものを参照してください)。
    • アプリケーションのこれらのパフォーマンス特性の許容範囲は?
      これらは大きく異なる可能性があります:スパム検出でかなりの偽陰性を受け入れても構わないかもしれませんが、それはHIV診断の受け入れ可能なセットアップではありません...

これらの質問に答えられない限り、有用な指標を見つけることはできないと思います。

分類子の検証にも無料の昼食がないようなものです。


2

予想される誤分類エラー率は、私が使用し、最も頻繁に見た方法です。ROCのAUCは、分類ルールのセットの尺度です。特定の分類子を別の分類子と比較することが目的の場合、AUCは適切ではありません。分類ルールのパフォーマンスを最も直接的に表しているため、何らかの形式の分類エラーが最も理にかなっています。

再代入推定値の大きな偏りとleave-one-outの大きな分散のため、多くの作業が分類エラー率の適切な推定値を見つけることに費やされました。ブートストラップとスムーズな推定は考慮されています。たとえば、クロスバリデーションに対するブートストラップの改善に関するJASA 1983のEfronの論文を参照してください。

これは、 EfronとTibshiramiによる1995年のスタンフォード大学のテクニカルレポートで、私自身の研究の一部を含む文献をまとめたものです。


同じデータセットでの2つの分類子のパフォーマンスを比較することも、議論すべきトピックです。特に、ROCとAUCの場合、ROC曲線全体またはAUC推定値を比較する方法がいくつかあります。これらは基本的に、ROC / AUCに違いがないという帰無仮説の統計的検定です。クロス検証とブートストラップは別の興味深いトピックです。最近、それについての論文(dx.doi.org/10.1016/j.csda.2010.03.004)を見ました。一度にすべての側面を考慮すると、かなり恐ろしくなります。
sebp
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.