AUCを使用する根拠は？

10

特に機械学習の文献のコンピューターサイエンス指向の側面では、AUC（レシーバーオペレーターの特性曲線の下の面積）が分類子を評価するための一般的な基準です。AUCを使用する理由は何ですか？たとえば、最適な決定が最良のAUCの分類器である特定の損失関数はありますか？

machine-learning roc

— charles.y.zheng
ソース

1

AUCは損失関数です。この損失関数の場合、最適な決定はAUCが最良の分類器であることは明らかです。

— ロビンギラード

1

@robingirardいいえ、違いません。つまり、区別できないため、直接最適化することはできません。

— cpury

15

ランク付けに使用されるバイナリ分類子場合（つまり、各例には、区間があります）、そこからAUCが測定されます、ここで、は真の陽性の例であり、は真の陰性の例です。したがって、AUCが最大のモデルを選択すると、になる確率が最小になります。つまり、少なくとも真陽性と同じ大きさの真陰性のランク付けの損失を最小限に抑えます。 $C$ $e$ $C(e)$ $[0, 1]$ $C(e_1) > C(e_0)$ $e_1$ $e_0$ $C(e_0) \geq C(e_1)$

— エリック
ソース

0

良いトマトと悪いトマトのプールから良いトマトを識別する簡単な例を見てみましょう。良いトマトの数が100で、悪いトマトの数が1000であるとします。つまり、合計1100です。ここで、あなたの仕事は、できるだけ多くの良いトマトを特定することです。すべての良いトマトを手に入れる方法の1つは、1100トマトすべてを取ることです。しかし、b / n goodとbadを区別できないことは明らかです。

だから、差別化の正しい方法は何ですか- 非常に少数の悪いものを拾いながら多くの良いものを手に入れる必要があるので、私たちは何かを測定する必要があります。それ。AUCメジャーは、以下に示すように、いくつかの悪いものでより良いものを選択できる場合に、より大きな重みを与えます。これは、B / Nの良い点と悪い点をどの程度区別できるかを示しています。

例では、70％の良いトマトを拾いながら、黒い曲線が悪いもの（不純物）の約48％を拾いましたが、青いものは83％悪いもの（不純物）を持っています。したがって、黒い曲線は青い曲線と比較してAUCスコアが優れています。

— ユーガンダール
ソース

これはどのように質問に答えますか？

— Vivek Subramanian

私はAUCの直感で書いたのですが、偽陽性の数を減らしながら、人口全体で良いもの（バイナリ分類では1）を識別するための単一のスコアを与えるのに役立ちます。これをどうすれば改善できたでしょうか。

— yugandhar