クラスの不均衡の下でのPrecision-Recall曲線の最適化


30

私はいくつかの予測子を持っている分類タスクを持っています(そのうちの1つが最も有益です)、私は分類器を構築するためにMARSモデルを使用していますも元気)。これで、トレーニングデータに大きなクラスの不均衡があります(各ポジティブサンプルに対して約2700のネガティブサンプル)。情報検索タスクと同様に、私は、上位の肯定的なテストサンプルの予測をより懸念しています。このため、Precision Recall曲線のパフォーマンスは私にとって重要です。

まず、トレーニングデータでモデルをトレーニングし、クラスの不均衡をそのまま維持しました。トレーニング済みのモデルを赤で表示し、最も重要な入力を青で表示します。

不均衡データのトレーニング、不均衡データの評価

不均衡なトレーニングのPR 不均衡なトレーニングのためのROC

クラスの不均衡がモデルをスローしていると考えて、上位のポジティブサンプルの学習はデータセット全体のごく一部であるため、バランスの取れたトレーニングデータセットを取得するためにポジティブトレーニングポイントをアップサンプリングしました。バランスの取れたトレーニングセットでパフォーマンスをプロットすると、良いパフォーマンスが得られます。PR曲線とROC曲線の両方で、訓練されたモデルは入力よりも優れています。

(アップサンプリング)バランスデータのトレーニング、(アップサンプリング)バランスデータの評価:

バランスの取れたデータセットで視覚化されたバランスの取れたトレーニングのPR バランスの取れたデータセットで視覚化された、バランスの取れたトレーニングのためのROC

ただし、バランスの取れたデータでトレーニングされたこのモデルを使用して、元のバランスの取れていないトレーニングセットを予測すると、PRカーブのパフォーマンスが低下します。

(アップサンプリングされた)バランスデータのトレーニング、元のアンバランスデータの評価:

バランスの取れたトレーニングのためのPR。バランスの取れていない元のデータセットで視覚化 バランスの取れたトレーニングのためのROC、元のバランスの取れていないデータセットで視覚化

だから私の質問は:

  1. PR曲線の視覚化が訓練されたモデル(赤)のパフォーマンスの低下を示し、ROC曲線がクラスの不均衡のために改善を示すのはなぜですか?
  2. リサンプリング/アップサンプリング/ダウンサンプリングのアプローチはこれを解決して、トレーニングを高精度/低リコール領域に集中させることができますか?
  3. 高精度/低リコール領域にトレーニングを集中する他の方法はありますか?

質問を編集して、トレーニングセットで計算される測定値と保留データで計算される測定値を明確にしてください
ジャックタナー

@JackTanner、今のところすべてがトレーニングセットで計算されています。モデルにはそれほど多くのパラメーターがなく、トレーニングセットのサンプル数が膨大なので、過剰適合についてあまり心配する必要はありません。また、テストセットに期待する前に、トレーニングセットで良好なパフォーマンスを得ていることを確認したいと思います。
highBandWidth

さまざまなリコールレベルで精度を評価するために、学習アルゴリズムでどのノブを制御していますか?機能の組み合わせや変換など、機能セットを拡張しようとしましたか?
ジャックタナー

@JackTanner、私が持っているモデル(logit関数を使用したMARS)は、ロジスティック回帰と同様に、0から1の範囲の出力を提供します。基本的には同じですが、さらにいくつかの機能が含まれています。さまざまなリコールで精度を得るには、さまざまなポイントでしきい値を設定するだけです。ランク付けされたリストからPRまたはROCを計算する標準的な方法を使用します。
highBandWidth

回答:


15
  1. ROC曲線は、クラスの不均衡の変化の影響を受けません。Fawcett(2004)の「ROCグラフ:研究者向けのメモと実用的な考慮事項」を参照してください。
  2. 低周波クラスのアップサンプリングは、合理的なアプローチです。
  3. クラスの不均衡に対処する方法は他にもたくさんあります。ブースティングとバギングは、頭に浮かぶ2つのテクニックです。これは、関連する最近の研究のようです:ブースティングおよびバギングテクニックとノイズの多い不均衡なデータの比較

PSきちんとした問題。どうなるか知りたいです。



1

最後の2つの実験では、実際にALMOST THE SAMEデータセットのSAMEモデルを使用しているという事実に注意を喚起したかったのです。パフォーマンスの違いはモデルの違いではなく、検証データセットのさまざまな分布と、使用される特定のMETRICSのプロパティ(精度と再現率)によって説明されます。この点をもう少し詳しく説明すると、初期検証データセットからX個の個別のエントリを取得し、アップスケールされたデータセットのマイノリティクラスを複製した場合、モデルはアップスケールされたものとアンバランスされたものの両方で、それらのXエントリに対して同じ予測を行います。検証データセット。唯一の違いは、各偽陽性について、初期データセットでは真陽性が少なくなり(したがって精度が低下する)、バランスのとれたデータセットでは真陽性が増えるということです(単にデータセットにより多くの陽性例があるという事実のため) 。これがPrecisionとRecallがスキューに敏感であると言われている理由です。一方、実験でも同様に、ROCは変わりません。これは、その定義を見ることでも確認できます。これが、ROCがスキューに敏感でないと言われている理由です。

私はそれらを探しているので、ポイント2と3についてはまだ良い答えがありません:)


0

アップサンプリングされた正のサンプルが「元のセット」と同じ「分布」を持つと仮定します。陽性サンプルの数が増えると、ほとんど変化が起こりません

1)「すべてのしきい値」でTruePositives(TP)の数が増加し、その結果、すべてのしきい値でTP /(TP + FP)およびTP /(TP + FN)の比率が増加します。そのため、PRCの下の領域が増加しています。

2)「ダム」モデルの精度とも呼ばれる予測精度は、(元のセットの)〜1/2700から(理想的なバランスの場合)〜1/2に増加します。モデルのパフォーマンスが「ダム」モデルよりも優れているとすると、曲線下の領域は「元のセット」では0.00037以上、理想的なバランスのセットでは0.5以上になります。

3)アップスケールされたデータセットでモデルをトレーニングしている間、一部のモデルは陽性サンプルを「オーバーフィット」する場合があります。

ROC曲線に関して、ROC曲線はクラス分布の変動による影響をほとんど示さないことが知られています(TPRにはある程度の効果がありますが、アップスケーリングはFPRにはほとんど影響しません)。

高精度/低リコール領域でのフォーカスに関しては、False NegativeよりもFalse Positiveがペナルティを受けるコスト関数に関して最適化できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.