不均衡なデータセットのROC曲線


10

入力行列とバイナリ出力考えます。Xy

分類子のパフォーマンスを測定する一般的な方法は、ROC曲線を使用することです。

ROCプロットでは、対角線はランダム分類子から得られる結果です。不均衡な出力場合、ランダム分類子のパフォーマンスは、異なる確率でまたはを選択して改善できます。y01

このような分類子のパフォーマンスは、ROC曲線プロットでどのように表すことができますか?もう斜めではなく、角度の異なる直線にすべきでしょうか?

ROC曲線の例


2
代わりに、精度-再現曲線を試してください。「不均衡なデータセットでバイナリ分類子を評価する場合、精度-再現プロットはROCプロットよりも情報が豊富です」、ncbi.nlm.nih.gov/pmc/articles/PMC4349800、おそらくもっと論文の著者によって作成されたアクセス可能なウェブサイト、classeval.wordpress.com / simulation
analysis /

回答:


16

ROC曲線はクラスバランスの影響を受けません。ランダム分類器で得られる直線は、ポジティブを生成するさまざまな確率を使用した結果です(0は(0、0)に、1は任意の範囲の(1、1)に移動します)。

不均衡な設定では何も変化しません。


1
対角線が変化しない理由を確認するために、曲線の下の領域の意味を検討することは役に立ちます。AUCは、ランダムに選択された正の例が、ランダムに選択された負の例よりも高いスコアを持つ確率として解釈できます。。これにより、クラスの不均衡が問題にならない理由が明確になります。
JBecker 2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.