回答:
まず、ROC曲線の下の領域を正式に定義してみましょう。いくつかの仮定と定義:
「スコア」s(x)を出力する確率的分類器があります。ここで、xは特徴であり、sは推定確率p(class = 1 | x)の一般的な増加する単調関数です。
K = { 0 、1 } のF K(S )、:=クラスkのスコアのpdf、CDF
新しい観測の分類は、スコアsをしきい値tと比較して取得されます。
さらに、数学的便宜のために、ポジティブクラス(イベントが検出された)k = 0、ネガティブk = 1を考えてみましょう。この設定では、次のように定義できます。
ROC曲線は、に対する プロットです 。設定すると、ROC曲線の下の面積を次のように正式に定義できます 変数の変更():
この式は、ランダムに描画されたクラス0のメンバーが、ランダムに描画されたクラス1のメンバーのスコアよりも低いスコアを生成する確率であると容易に見なすことができます。
この証明は、https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdfから取得されます 。
AUC-ROCを計算する方法は、TPRとFPRをしきい値としてプロットし、を変更して、その曲線の下の面積を計算することです。しかし、なぜ曲線の下のこの領域がこの確率と同じになるのですか?以下を想定しましょう:
TPR(リコール)はで与えられ、FPR(フォールアウト)は与えられることに注意してください。
ここで、y軸にTPRを、x軸にFPRをプロットし、さまざまな曲線を描き、この曲線の下の面積()を計算します。
我々が得る:
ここで、はだけでした
しかし、逆変換の法則から、ランダム変数場合、場合はことがわかります。これは、任意のランダム変数を取得し、それに独自のCDFを適用すると、ユニフォームにつながるためです。
この事実を方程式(2)で使用すると、次のようになります。
これを方程式(1)に代入すると、次のようになります。
つまり、曲線の下の領域は、ランダムなポジティブサンプルがランダムなネガティブサンプルよりも高いスコアを持つ確率です。