分類器がサンプルの半分を誤分類した場合でも、AUC = 1になるのはなぜですか?


20

確率を返す分類器を使用しています。AUCを計算するには、pROC Rパッケージを使用しています。分類器からの出力確率は次のとおりです。

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probsクラス「1」に属する確率を示します。示されているように、分類器はクラス「1」のすべてのサンプルを分類しました。

真のラベルベクトルは次のとおりです。

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

示されているように、分類器は5つのサンプルを誤って分類しています。しかし、AUCは次のとおりです。

pROC::auc(truel, probs)
Area under the curve: 1

なぜそれが起こるのか説明してもらえますか?


回答:


21

AUCは、クラスメンバーシップの確率に従って例をランク付けする能力の尺度です。したがって、すべての確率が0.5を超えていても、すべての正のパターンの確率がすべての負のパターンよりも高い場合、AUCは1のままです。この場合、0.5より高い決定しきい値があり、エラー率はゼロになります。AUCは確率のランキングのみを測定するため、確率が適切に調整されているかどうかはわかりません(たとえば、系統的バイアスがない)。確率の調整が重要な場合は、クロスエントロピーメトリックを確認します。


21

他の答えは何が起こっているのかを説明していますが、私は絵がいいかもしれないと思いました。

クラスが完全に分離されていることがわかります。したがって、AUCは1ですが、しきい値を1/2にすると、誤分類率が50%になります。

問題点


21

サンプルはまったく「誤分類」されていません。0例は、より厳密に低くランク付けされている1例。AUROCは、定義されているとおりに実行しています。これは、ランダムに選択されたもの1がランダムに選択されたものよりも高くランク付けされる確率を測定するものです0。このサンプルでは、​​これは常に真であるため、確率1のイベントです。

Tom Fawcettには、ROC曲線に関する素晴らしい解説記事があります。そこから始めることをお勧めします。

トム・フォーセット。「ROC分析の概要。」パターン認識文字。2005年。


3
+1フォーセット紙は、実際に始めるのに非常に良い場所です。
ディクラン有袋類
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.