3
非常に不均衡なデータの分類/評価指標
不正検出(クレジットスコアリングのような)問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです: そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。 私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました: [...] 80%の観測精度は、50%の予測精度に対して、75%の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか? 単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか?再(ダウン/アップ)サンプリングまたはコストベースの学習(http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照)はまだ必要ですか?