特に機械学習の文献のコンピューターサイエンス指向の側面では、AUC(レシーバーオペレーターの特性曲線の下の面積)が分類子を評価するための一般的な基準です。AUCを使用する理由は何ですか?たとえば、最適な決定が最良のAUCの分類器である特定の損失関数はありますか?
特に機械学習の文献のコンピューターサイエンス指向の側面では、AUC(レシーバーオペレーターの特性曲線の下の面積)が分類子を評価するための一般的な基準です。AUCを使用する理由は何ですか?たとえば、最適な決定が最良のAUCの分類器である特定の損失関数はありますか?
回答:
良いトマトと悪いトマトのプールから良いトマトを識別する簡単な例を見てみましょう。良いトマトの数が100で、悪いトマトの数が1000であるとします。つまり、合計1100です。ここで、あなたの仕事は、できるだけ多くの良いトマトを特定することです。すべての良いトマトを手に入れる方法の1つは、1100トマトすべてを取ることです。しかし、b / n goodとbadを区別できないことは明らかです。
だから、差別化の正しい方法は何ですか- 非常に少数の悪いものを拾いながら多くの良いものを手に入れる必要があるので、私たちは何かを測定する必要があります。それ。AUCメジャーは、以下に示すように、いくつかの悪いものでより良いものを選択できる場合に、より大きな重みを与えます。これは、B / Nの良い点と悪い点をどの程度区別できるかを示しています。
例では、70%の良いトマトを拾いながら、黒い曲線が悪いもの(不純物)の約48%を拾いましたが、青いものは83%悪いもの(不純物)を持っています。したがって、黒い曲線は青い曲線と比較してAUCスコアが優れています。