私はいくつかの予測子を持っている分類タスクを持っています(そのうちの1つが最も有益です)、私は分類器を構築するためにMARSモデルを使用していますも元気)。これで、トレーニングデータに大きなクラスの不均衡があります(各ポジティブサンプルに対して約2700のネガティブサンプル)。情報検索タスクと同様に、私は、上位の肯定的なテストサンプルの予測をより懸念しています。このため、Precision Recall曲線のパフォーマンスは私にとって重要です。
まず、トレーニングデータでモデルをトレーニングし、クラスの不均衡をそのまま維持しました。トレーニング済みのモデルを赤で表示し、最も重要な入力を青で表示します。
不均衡データのトレーニング、不均衡データの評価:
クラスの不均衡がモデルをスローしていると考えて、上位のポジティブサンプルの学習はデータセット全体のごく一部であるため、バランスの取れたトレーニングデータセットを取得するためにポジティブトレーニングポイントをアップサンプリングしました。バランスの取れたトレーニングセットでパフォーマンスをプロットすると、良いパフォーマンスが得られます。PR曲線とROC曲線の両方で、訓練されたモデルは入力よりも優れています。
(アップサンプリング)バランスデータのトレーニング、(アップサンプリング)バランスデータの評価:
ただし、バランスの取れたデータでトレーニングされたこのモデルを使用して、元のバランスの取れていないトレーニングセットを予測すると、PRカーブのパフォーマンスが低下します。
(アップサンプリングされた)バランスデータのトレーニング、元のアンバランスデータの評価:
だから私の質問は:
- PR曲線の視覚化が訓練されたモデル(赤)のパフォーマンスの低下を示し、ROC曲線がクラスの不均衡のために改善を示すのはなぜですか?
- リサンプリング/アップサンプリング/ダウンサンプリングのアプローチはこれを解決して、トレーニングを高精度/低リコール領域に集中させることができますか?
- 高精度/低リコール領域にトレーニングを集中する他の方法はありますか?