電子メールがスパムかどうかを予測する分類子を学習したいとします。そして、メールの1%のみがスパムであるとします。
最も簡単な方法は、メールはどれもスパムではないという単純な分類法を学ぶことです。この分類子は99%の精度を提供しますが、興味深いことは何も学習せず、100%の誤検出率を持ちます。
この問題を解決するために、人々は「ダウンサンプル」するか、例の50%がスパムであり、50%がスパムではないデータのサブセットで学習するように私に言っています。
しかし、このアプローチを心配しています。この分類子を構築して、実際の電子メールのコーパスで使用を開始すると(50/50テストセットではなく)、多くの電子メールがスパムであると予測される可能性があるためです本当にない。データセットに実際に存在するよりもはるかに多くのスパムを見ることに慣れているからです。
それでは、この問題をどのように修正するのでしょうか?
(「アップサンプリング」、または肯定的なトレーニングの例を複数回繰り返して、データの50%が肯定的なトレーニングの例になるようにすると、同様の問題が発生するようです。)