PR曲線の下の領域の解釈


10

私は現在3つの方法を比較していますが、測定基準として精度、auROC、auPRがあります。そして、私は次の結果を持っています:

方法A-acc:0.75、auROC:0.75、auPR:0.45

方法B-acc:0.65、auROC:0.55、auPR:0.40

方法C-acc:0.55、auROC:0.70、auPR:0.65

私は正確さとauROCをよく理解しています(よく覚えておくために、「auROC =陽性クラスを予測する能力を特徴づける」などの文を考えようとすることがよくありますが、正確に正確ではないので覚えておくのに役立ちます)。私はこれまでにauPRデータを取得したことがなく、それがどのように構築されているかを理解している間は、その背後に「感覚」を得ることができません。

実際、メソッドCがauPRのスコアが非常に高いのに、精度とauPRが悪い/平均的である理由を理解できません。

誰かが私を理解するのを手伝ってくれれば、本当に素晴らしい簡単な説明でそれをより良く理解できます。ありがとうございました。

回答:


11

ROC曲線とPR曲線の1つの軸は同じです。つまり、TPRです。データ内のすべての陽性症例のうち、いくつの陽性症例が正しく分類されたかを示します。

他の軸は異なります。ROCはFPRを使用します。FPRは、データ内のすべてのネガティブから誤ってポジティブと宣言された数です。PRカーブは精度を使用します:ポジティブとして予測されたすべての中で真のポジティブの数。したがって、2番目の軸のベースは異なります。ROCはデータの内容を使用し、PRは予測の内容を基礎として使用します。

データに高度な不均衡がある場合、PRカーブはより有益であると考えられます。このペーパーhttp://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdfを参照してください。


1
auROCの場合、0.5が最小です(述部を逆にすることで、より少なくする方が良いため)。auPRに同様のルールはありますか?また、私の測定値については、方法Cのスコアを見ることで何を主張できますか?3つのケースで同じデータセットを使用しているため、クラス間で多かれ少なかれ均等に分布しているデータセットの私の観点からは、auROCとauPRが同じランキングに従っていないことは意味がありませんメソッド。
AdrienNK 2014年

1
auPRのランダム分類子スコアとは何ですか?auROCでは0.5ですが、auPRではわかりません。
ジャックトウェイン

9
ランダム分類子の予想されるauPRスコアは、データセット内の真の陽性ケースの比率にすぎません。これは、クラスを推測した場合に予想される精度であり、すべてのレベルの再現でその精度が得られます。したがって、ランダム分類子の予想されるPR曲線は、辺の長さが「真陽性の比率」x 1の長方形です。たとえば、データセットに10%の陽性ケースと90%の陰性ケースが含まれる場合、偶然の予想されるAUPRは0.1です。
リジーシルバー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.