AUCの確率論的解釈を導き出す方法は?


14

ROC曲線の下の領域が、分類子がランダムに選択された「ポジティブ」インスタンスを(取得された予測から)ランダムに選択された「ポジティブ」インスタンス(元のポジティブクラスから)よりもランク付けする確率が高いのはなぜですか?このステートメントを積分を使用して数学的に証明し、真の正と負のクラス分布のCDFとPDFをどのように証明しますか?


2
私はここで、この非常に基本的証明を書いた:madrury.github.io/jekyll/update/statistics/2017/06/21/...
マシュードゥルーリー

回答:


10

まず、ROC曲線の下の領域を正式に定義してみましょう。いくつかの仮定と定義:

  • 「スコア」s(x)を出力する確率的分類器があります。ここで、xは特徴であり、sは推定確率p(class = 1 | x)の一般的な増加する単調関数です。

  • K = { 0 1 } のF KS fk(s)、:=クラスkのスコアのpdf、CDFk={0,1}Fk(s)

  • 新しい観測の分類は、スコアsをしきい値tと比較して取得されます。

さらに、数学的便宜のために、ポジティブクラス(イベントが検出された)k = 0、ネガティブk = 1を考えてみましょう。この設定では、次のように定義できます。

  • Recall(別名Sensitivity、aka TPR):(陽性として分類された陽性症例の割合)F0(t)
  • 特異度(別名TNR):(陰性と分類された陰性症例の割合)1F1(t)
  • FPR(フォールアウトとも呼ばれます):1- TNR =F1(t)

ROC曲線は、に対する プロットです 。設定すると、ROC曲線の下の面積を次のように正式に定義できます 変数の変更(): F0(t)F1(t)v=F1(s)

AUC=01F0(F11(v))dv
dv=f1(s)ds
AUC=F0(s)f1(s)ds

この式は、ランダムに描画されたクラス0のメンバーが、ランダムに描画されたクラス1のメンバーのスコアよりも低いスコアを生成する確率であると容易に見なすことができます。

この証明は、https//pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdfから取得されます


5

@alebuの答えは素晴らしいです。しかし、その表記法は非標準であり、陽性クラスには0を使用し、陰性クラスには1を使用します。以下は標準表記の結果です(陰性クラスは0、陽性クラスは1)。

ネガティブクラスのスコアのおよび:およびf0(s)F0(s)

陽性クラスのスコアのPDFおよびCDF:およびf1(s)F1(s)

FPR =x(s)=1F0(s)

TPR =y(s)=1F1(s)

AUC=01y(x)dx=01y(x(τ))dx(τ)=+y(τ)x(τ)dτ=+(1F1(τ))(f0(τ))dτ=+(1F1(τ))f0(τ)dτ

ここで、はしきい値を表します。@alebuの回答の解釈を最後の式に適用できます。τ


1

AUC-ROCを計算する方法は、TPRとFPRをしきい値としてプロットし、を変更して、その曲線の下の面積を計算することです。しかし、なぜ曲線の下のこの領域がこの確率と同じになるのですか?以下を想定しましょう:τ

  1. Aは、実際に陽性のクラスにあるデータポイントに対してモデルが生成するスコアの分布です。
  2. Bは、モデルが実際に負のクラスにあるデータポイントに対して生成するスコアの分布です(これをの左側に配置します)。A
  3. τはカットオフしきい値です。データポイントのスコアがこれよりも大きい場合は、陽性クラスに属すると予測されます。それ以外の場合は、ネガティブクラスになると予測されます。

TPR(リコール)はで与えられ、FPR(フォールアウト)は与えられることに注意してください。P(A>τ)P(B>τ)

ここで、y軸にTPRを、x軸にFPRをプロットし、さまざまな曲線を描き、この曲線の下の面積()を計算します。τAUC

我々が得る:

AUC=01TPR(x)dx=01P(A>τ(x))dx
ここで、はFPRです。ここで、この積分を計算する1つの方法は、を一様分布に属すると見なすことです。その場合、それは単に期待になります。xxTPR

(1)AUC=Ex[P(A>τ(x))]
を考慮する場合。xU[0,1)

ここで、はだけでしたxFPR

x=FPR=P(B>τ(x))
は一様分布からのものである と考えたので、x

P(B>τ(x))U
=>P(B<τ(x))(1U)U
(2)=>FB(τ(x))U

しかし、逆変換の法則から、ランダム変数場合、場合はことがわかります。これは、任意のランダム変数を取得し、それに独自のCDF​​を適用すると、ユニフォームにつながるためです。XFX(Y)UYX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X
あり、これはユニフォームに対してのみ適用されます。

この事実を方程式(2)で使用すると、次のようになります。

τ(x)B

これを方程式(1)に代入すると、次のようになります。

AUC=Ex(P(A>B))=P(A>B)

つまり、曲線の下の領域は、ランダムなポジティブサンプルがランダムなネガティブサンプルよりも高いスコアを持つ確率です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.