不均衡なデータのROC曲線の下の領域またはPR曲線の下の領域？

使用するパフォーマンス測定値、ROC曲線下の領域（FPRの関数としてのTPR）または精度-リコール曲線下の領域（リコールの関数としての精度）について疑問があります。

私のデータは不均衡です。つまり、負のインスタンスの数は正のインスタンスよりもはるかに多くなっています。

wekaの出力予測を使用しています。サンプルは次のとおりです。

inst#,actual,predicted,prediction
1,2:0,2:0,0.873
2,2:0,2:0,0.972
3,2:0,2:0,0.97
4,2:0,2:0,0.97
5,2:0,2:0,0.97
6,2:0,2:0,0.896
7,2:0,2:0,0.973

そして、私はpROCおよびROCR rライブラリーを使用しています。

— んん
ソース

これらの曲線のいずれかで達成したいことを述べるのを忘れていました。

— マーククレセン14年

注：ROC曲線（全動作範囲でのFPRの関数としてのTPR）とPR曲線（全動作範囲での精度とリコール）のどちらかを選択したいようです。「精度と再現性のAUC-ROC」のような用語は非常に誤解を招くため、これを編集しました。誤解した場合は元に戻してください。

— マーククレセン14年

回答:

質問は非常に曖昧なので、異なるモデルを比較するために適切なパフォーマンス測定を選択することを想定します。ROC曲線とPR曲線の主な違いの概要については、次の論文を参照してください：DavisとGoadrichによる Precision-RecallとROC曲線の関係。

DavisとGoadrichを引用するには：

ただし、非常に歪んだデータセットを扱う場合、Precision-Recall（PR）曲線は、アルゴリズムのパフォーマンスに関するより有益な情報を提供します。

ROC曲線はFPR対TPRをプロットします。より明確にするには： PR曲線は、精度と再現率（FPR）、またはより明示的にプロットします：

F P R = \frac{F P}{F P + T N} 、 T P R = \frac{T P}{T P + F N} 。

$FPR = \frac{FP}{FP+TN}, \quad TPR=\frac{TP}{TP+FN}.$

r e c a l l = \frac{T P}{T P + F N} = T P R 、 p r e c 私 s 私 o n = \frac{T P}{T P + F P}

$recall = \frac{TP}{TP+FN} = TPR,\quad precision = \frac{TP}{TP+FP}$

は影響を受けるため、精度はクラス（im）バランスの影響を直接受けますが、TPRは正の値のみに依存します。これが、ROC曲線がそのような効果をキャプチャしない理由です。 $FP$

精度の低い曲線は、非常に不均衡なデータセットのモデル間の違いを強調するのに適しています。不均衡な設定で異なるモデルを比較する場合、PR曲線の下の領域はROC曲線の下の領域よりも大きな差を示す可能性があります。

とはいえ、ROC曲線は、（あまり適していなくても）はるかに一般的です。視聴者によっては、ROC曲線が共通語になる可能性があるため、これらを使用する方がおそらく安全です。PR空間であるモデルが別のモデルを完全に支配している場合（たとえば、リコール範囲全体にわたって常により高い精度を持っている場合）、ROC空間でも支配します。曲線がいずれかの空間で交差する場合、曲線はもう一方の空間でも交差します。つまり、どの曲線を使用しても、主要な結論は同様です。

恥知らずな広告。追加の例として、不均衡な設定でROC曲線とPR曲線の両方を報告している私の論文の1つを見ることができます。図3には、同一モデルのROC曲線とPR曲線が含まれており、両者の違いが明確に示されています。PRの下の面積とROCの下の面積を比較するには、表1-2（AUPR）と表3-4（AUROC）を比較します。AUPRは、AUPRよりも個々のモデル間の差がはるかに大きいことがわかります。これは、PR曲線の適合性をもう一度強調しています。

— マーク・クレセン
ソース

説明してくれてありがとう。問題は、なぜ不均衡なデータに対してPR曲線がより有益なのか？私にとって、ROCはTPRとFPRの両方を考慮しているため、より情報量が多いはずです。

— MM 14年

さらに、これら2つの記事は私をより混乱させます！onlinelibrary.wiley.com/doi/10.1111/j.1466-8238.2007.00358.x/…riceanalytics.com/db3/00232/riceanalytics.com/_download/…–

— MM

@MAは私の答えを編集して明確にしました。

— マーククレセン14年

TPRとFPRの間のリコールの方程式には混乱があると思いますか？

— サイモントーダル

そうです、リコール= ... = TPRであり、FPRではありません。@Marc Claesen、それを変更できるのはあなただけだと思います。なぜなら、それをしようとすると、「編集には少なくとも6文字が必要だから」という情報があり、このような小さなタイプミスを修正することは不可能だからです。

— ponadto 16

ROC曲線は、y軸にTPRを、x軸にFPRをプロットしますが、何を描くかによって異なります。調査地域で異なるプロットを行う理由がない限り、TPR / FPR ROC曲線は、運用上のトレードオフを示すための標準であり、最もよく受け入れられると思います。

精度とリコールだけでは、真のネガを説明しないため誤解を招く可能性があります。

— アンダーマイナー
ソース

ROCとPR AUCの最大の違いは、PR AUCが実際にあなたの肯定的なクラスのみを見ている場合、ROCがあなたのモデルが肯定的なクラスと否定的なクラスをどれだけうまく計算できるかを決定しているという事実です。そのため、バランスの取れたクラスの状況で、ネガティブクラスとポジティブクラスの両方に関心がある場合、ROC AUCメトリックは非常に効果的です。不均衡な状況では、PR AUCを使用することをお勧めしますが、ポジティブクラスをモデルがどれだけうまく計算できるかを判断するだけです。

— デビッド
ソース