不均衡なデータのROC曲線の下の領域またはPR曲線の下の領域?
使用するパフォーマンス測定値、ROC曲線下の領域(FPRの関数としてのTPR)または精度-リコール曲線下の領域(リコールの関数としての精度)について疑問があります。 私のデータは不均衡です。つまり、負のインスタンスの数は正のインスタンスよりもはるかに多くなっています。 wekaの出力予測を使用しています。サンプルは次のとおりです。 inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 そして、私はpROCおよびROCR rライブラリーを使用しています。