ROCの曲線下面積と全体の精度


29

ROCの曲線下面積(AUC)と全体的な精度について少し混乱しています。

  1. AUCは全体の精度に比例しますか?言い換えると、全体の精度が大きい場合、AUCが大きくなりますか?または、それらは定義により正の相関がありますか?

  2. それらが正の相関関係にある場合、一部の出版物でそれらの両方を報告するのはなぜですか?

  3. 実際のケースでは、分類タスクを実行し、次のように結果を得ました。分類子Aの精度は85%、AUCは0.98、分類子Bの精度は93%、AUCは0.92です。質問は、どの分類器の方が良いですか?または、これらのような同様の結果を得ることが可能ですか?(実装にバグがあるかもしれません)


1
私はあなたの何人かのために論文がいくらかの興味を持っているかもしれないとわかりました。google.co.uk/...
サモJerom

AUCは全体の精度よりも低いと想定されていないのは、AUCの測定値で偽陽性率をカウントしているのに、精度に含まれていないためですか?
アリスルタン14年

ROC AUCは、クラスのサイズが異なる場合に役立ちます。オブジェクトの99%が正の場合、ランダムサンプリングにより99%の精度が得られます。そうすれば、ROC AUCの値ははるかに意味のあるものになります。
アノニムース14

回答:


26

AUC(ROCに基づく)と全体的な精度は同じ概念ではないようです。

全体の精度は1つの特定のカットポイントに基づいていますが、ROCはすべてのカットポイントを試行し、感度と特異性をプロットします。したがって、全体の精度を比較するとき、カットポイントに基づいて精度を比較しています。全体の精度は、異なるカットポイントによって異なります。


2
お返事ありがとうございます!全体の精度は、特定のカットポイント(またはしきい値)から得られることを理解しています。ただし、最適なカットポイントは1つ、つまり左上隅に最も近いものです。たとえば、全体の精度はこの最適なカットオフポイントを使用して計算され、AUCはすべての異なるカットポイントに対するものです。次に、この精度とAUCの解釈方法は?たとえば、上記の2つの分類子のパフォーマンス。
サモジェロム

3
ああなるほど。最高の全体的な精度とAUCを比較しています。しかし、それらは再び異なる概念です。AUCはP(予測されるTRUE |実際のTRUE)対P(FALSE | FALSE)であり、全体の精度はP = P(TRUE | TRUE)* P(実際のTRUE)+ P(FALSE | FALSE)* P(実際のFALSE)。したがって、これはデータセットの真の値の割合に大きく依存します。実際には、カットポイントがP(実際のTRUE)に近い場合、通常、最高の全体的な精度が達成されるようです。
ビンセント

そのため、データセットの真の値の割合によっては、AUCと最高の全体的な精度が一致しない場合があります。あなたの場合、分類器の1つは感度に、もう1つは特異性に重点を置いているようです。また、現在のデータセットでは、P(TRUE)は50%ではありません。そのため、感度と特異性は、異なる重み付けによって全体的な精度に貢献します。実際には、ROCはより多くの情報を提供できるため、ケースバイケースでより上品なものを選択したいと考えています。たとえば、スパム分類子は、重要な電子メールを見逃さないようにするために、P(スパムではなくスパムではない)に重点を置くことがあります。
ビンセント

ご回答有難うございます。今ではもっとはっきりしている。しかし、誰かがもっと議論したい場合は、ここに投稿してください。
サモジェロム

27

2つの統計測定値は相関している可能性がありますが、分類器の異なる品質を測定します。

オーロク

曲線下面積(AUC)は、ランダムに選択された負の例よりもランダムに選択された正のインスタンスを分類子がランク付けする確率に等しくなります。実際にパターンをクラスに割り当てることなく、ポジティブクラスに属する度合いに応じて一連のパターンをランク付けする分類器のスキルを測定します。

全体的な精度は、分類器がパターンをランク付けする能力にも依存しますが、しきい値を上回る場合はパターンをポジティブクラスに、以下であればネガティブクラスにパターンを割り当てるために使用されるランキングのしきい値を選択する能力にも依存します。

したがって、パターン(AUROCが測定する)のランク付けはAUROCと全体の精度の両方にとって有益であるため、より高いAUROC統計(すべての条件が等しい)の分類器も全体の精度が高くなる可能性があります。ただし、1つの分類子がパターンを適切にランク付けしても、しきい値を誤って選択すると、AUROCは高くなりますが、全体の精度は低下します。

実用

実際には、全体的な精度、AUROC、および分類子がクラスメンバーシップの確率、クロスエントロピーまたは予測情報を推定する場合に収集するのが好きです。次に、ハード分類を実行する生の能力を測定するメトリックがあります(誤検出と誤検出の誤分類コストが等しく、サンプルのクラス頻度が運用時のクラス頻度と同じであると仮定-大きな仮定!)、パターンをランク付けする機能を測定するメトリックと、ランク付けが確率としてどの程度調整されているかを測定するメトリック。

多くのタスクでは、運用の誤分類コストは不明または変動するか、運用クラスの頻度がトレーニングサンプルの頻度と異なるか、変動します。その場合、全体の精度はかなり無意味であることが多く、AUROCはパフォーマンスのより良い指標であり、理想的には、運用中のこれらの問題を補正できるように、十分に較正された確率を出力する分類器が必要です。本質的にどのメトリックが重要かは、解決しようとしている問題によって異なります。


ディクラン、最初の段落の参照はありますか?
Bunder

@Bunderは直接ではなく、AUROCは、ランダムに選択された+ veパターンがランダムに選択された-veパターン(en.wikipedia.org/wiki/…)よりも高くランク付けされる確率であるため、ランキングの品質の尺度です。 、その確率をできるだけ高くしたいので。
ディクランMarsupial

5

AUCは本当に非常に便利なメトリックですか?

予想コストがより適切な尺度であると思います。

次に、すべての偽陽性についてはコストAが、すべての偽陰性についてはコストBがあります。他のクラスは他のクラスよりも相対的に高価である可能性があります。もちろん、さまざまなサブグループで誤分類のコストがある場合は、さらに強力なメトリックになります。

X軸にカットオフ、Y軸に予想コストをプロットすることで、どのカットオフポイントが予想コストを最小化するかを確認できます。

正式には、最小化しようとする損失関数Loss(cut-off | data、cost)があります。


3
予想されるコストは、AUCの計算には不要な偽陽性および偽陰性コストがわかっている場合にのみ評価できます。これは、コストが不明または変動する場合に使用するのに適した統計です。
ディクラン有袋類

4

すべての答えのように掲載されていますROCし、accuracy基本的な二つの異なる概念です。

一般的に、ROCクラス分布および不均等な予測エラーコスト(偽陽性および偽陰性コスト)に依存しない分類器の識別力について説明します。

のようなメトリックaccuracyは、test datasetまたはのクラス分布に基づいて計算cross-validationされますが、実際のデータに分類子を適用すると、基になるクラス分布が変更されたか不明であるため、この比率が変わる場合があります。一方、TP rateおよびFP rateその構築するために使用されるAUCクラスの分布シフトによって影響されないであろう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.