非常に不均衡なデータの分類/評価指標

22

不正検出（クレジットスコアリングのような）問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです：

そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。

私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました：

[...] 80％の観測精度は、50％の予測精度に対して、75％の予測精度ではあまり印象的ではありません[...]

したがって、私の質問は次のようになります。

kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか？
単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか？再（ダウン/アップ）サンプリングまたはコストベースの学習（http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照）はまだ必要ですか？

— ジョージ・ハイラー
ソース

データのアップ/ダウンサンプリングは、トレーニングデータのデータが不均衡な場合に実行する必要があるものであり、分類子が少数派クラスを無視するのを防ぐのに役立つ場合があります。分類器を評価する際にリサンプリングされたデータを使用するのは不適切（および少し詐欺的）です-元のテストデータに同じように配布されたサンプルに適用した場合、分類器にはないパフォーマンスを報告します。

— -user48956

関連：stats.stackexchange.com/questions/284515/...

— アントンタラセンコ

10

はい、カッパについてのあなたの仮定はほぼ正しいようです。単一のスカラーメトリックとしてのKappaは、精度のような他の単一のスカラーメトリックよりも多くの利点があります。これは、小さなクラスの予測パフォーマンスを反映しません（はるかに大きなクラスのパフォーマンスによってシャドウされます）。あなたが指摘したように、カッパはこの問題をよりエレガントに解決します。

Kappaなどのメトリックを使用してパフォーマンスを測定しても、モデルがデータにどのように適合するかは必ずしも増加しません。いくつかのメトリックを使用して任意のモデルのパフォーマンスを測定できますが、モデルがデータにどのように適合するかは、他のパラメーター（ハイパーパラメーターなど）を使用して決定されます。したがって、たとえばKappaを使用して、非常に不均衡な問題の複数の選択肢の中から最適なモデルタイプとハイパーパラメーター化を選択できますが、Kappa自体を計算しても、モデルが不均衡なデータに適合する方法は変わりません。

さまざまなメトリックについて：Kappaおよび精度/リコールに加えて、真の正および真の負率TPR / TNR、ROC曲線、および曲線AUCの下の領域も調べてください。それらのどれがあなたの問題に役立つかは、主にあなたの目標の詳細に依存します。たとえば、TPR / TNRと精度/リコールに反映されるさまざまな情報：実際に検出されている不正行為の割合が高く、正当なトランザクションの割合が検出されている、および/または割合を最小化することが目標ですすべてのアラームで誤ったアラーム（あなたが自然にそのような問題で「まとめて」取得します）の数は？

アップ/ダウンサンプリングの場合：「必要な場合」に対する標準的な答えはないと思います。彼らはあなたの問題を適応させるもう一つの方法です。技術的に：はい、使用できますが、特にアップサンプリング（気付かないうちに非現実的なサンプルを作成する可能性があります）-両方のクラスのサンプルの頻度を「現実的でない」ものに変更することに注意してください「予測パフォーマンスにも悪影響を与える可能性があります。少なくとも、最終的な保留テストセットは、実際のサンプルの頻度を再度反映する必要があります。結論：アップ/ダウンサンプリングを行う場合と行わない場合の両方で最終結果が改善される場合がありますので、試してみる必要があるかもしれません（ただし、テストセットを操作しないでください！）。

— オタク
ソース

しかし、全体的なビジネスへの影響が考慮されるため、DOI 10.1109 / ICMLA.2014.48のようなコストベースのアプローチの方が適していますか？

— ゲオルクハイラー

15

$TP$ $FP$ $FN$

F1スコア。これは、精度と再現率の調和平均です。
G-measureは、精度と再現率の幾何平均です。F1と比較して、不均衡なデータの方が少し良いことがわかりました。
$TP / (TP + FP + FN)$

注：不均衡なデータセットの場合、メトリックをマクロ平均化することが最善です。

— ジョンソン
ソース

1

GメジャーとJaccard Indexを指すとき、「より良い」とはどういう意味ですか？

— ナルファナー

8

不均衡なデータセットの場合、平均精度のメトリックがAUROCの代わりになる場合があります。APスコアは、精度-想起曲線の下の面積です。

これは、いくつかのコード（Python）を使用した議論です。

これが論文です。

また、Peter FlachのPrecision-Recall-Gain曲線、およびAP曲線の欠点に関する説明も参照してください。

— user48956
ソース