AUCは、各クラスからランダムに選択されたインスタンスを正しく分類する確率ですか?


10

私はこのキャプションを紙で読んで、このように記述されたAUCを他のどこでも見たことはありません。これは本当ですか?これを確認するための証明または簡単な方法はありますか?

図2は、受信者操作特性曲線(AUC)の下の面積で表される二分変数の予測精度を示しています。これは、ランダムに選択された2人のユーザーを各クラス(男性と女性など)から正しく分類する確率に相当します。 )。

AUC = 0.5の場合、コインフリップが2回続けて正しく予測される確率が50%であることを示唆しているため、それは真実ではないように思えますが、実際には25%の確率しかありません2つのコインフリップを続けて正しく予測する方法。少なくとも、それが私がこの発言について考えている方法です。


1
タイトルで表現された概念がとにかく正しくないことに感謝しますが、引用と一致させるために、単に「分類の確率」ではなく「正しく分類の確率...」と言うべきではありませんか?初めて読んだとき、それは私を混乱させました。
Silverfish 2016

1
もう十分長いタイトルでした!私は実際にそれを「正しく」信じるかどうかを追加することを考えました。:)
thecity2

回答:


13

見積もりは少し間違っています。正しい説明は、ROC AUCは、ランダムに選択された正の例がランダムに選択された負の例よりも高くランク付けされる確率であるということです。これは、ROC AUCとランクのウィルコクソン検定の関係によるものです。

Tom Fawcettの議論「ROC分析の概要」で説明されています。


8

著者の説明は完全に正確ではありません。ROC曲線の下の領域は、ランダムに選択された正の例が、ランダムに選択された負の例よりもリスクスコアが高い確率と実際に等しくなります。これは必ずしも分類とは関係ありません。スコア分布間の分離の尺度にすぎません。

コインの例として、2つのコインがあり、それぞれにスコアが関連付けられているとします。次に、両方のコインを裏返して、一方が表と裏に出るようにします(異なる結果を条件にしているため)。これは、ランダムなスコアリングを行うモデルを持っていることと同等であり、出てきたコインがより高い(またはより低い)スコアを持つ確率は1/2です。


2

あなたが読んだ説明は正しいですが、私はその言い回しが嫌いです。ROC(AUC)曲線の下の領域は、ランダムなペアの個体をクラス2からクラス1に正しく分類する確率です。これはランクベースの統計であるため、ペアの1人の個体がより高いランクにあるかどうかを推測する必要がある場合もう1つは、ランダムに推測した場合の50%の確率にすぎません。AUCはウィルコクソンの符号順位検定統計量と同一[1]であり、これはその意味を説明するために使用できます。

[1]:Mason&Graham(2002)。相対動作特性(ROC)および相対動作レベル(ROL)曲線の下の領域:統計的有意性と解釈。王立気象協会の季刊誌。128:2145〜2166。


1

他の人が指摘したように、AUCは、ポジティブクラスからランダムに選択された例が、分類子から、ネガティブクラスからランダムに選択された例よりも高いスコアを受け取る確率を表します。

この特性の証明については、AUCの数式を導出する方法を参照してください

または、その回答に使用された情報源:D.ハンド、2009年、分類器のパフォーマンスの測定:ROC曲線の下の領域の一貫した代替手段

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.