サブサンプリング(ダウンサンプリング)は、基本レベルでクラスの不均衡を制御する一般的な方法だと思います。つまり、問題の根本を修正します。したがって、すべての例で、毎回クラスの過半数の1,000をランダムに選択することができます。10個のモデル(1,000人の多数派と1,000人の少数派の10倍)を作成して、データセット全体を使用することもできます。この方法を使用できますが、いくつかのアンサンブル方法を試さない限り、9,000個のサンプルを破棄することになります。簡単に修正できますが、データに基づいて最適なモデルを取得するのは困難です。
クラスの不均衡を制御する必要がある程度は、主に目標に基づいています。純粋な分類に関心がある場合は、ほとんどの手法で不均衡が50%の確率カットオフに影響を与えるため、ダウンサンプリングを検討します。分類の順序のみに関心があり(一般にポジティブはネガティブよりも高くしたい)、AUCなどのメジャーを使用する場合、クラスの不均衡は確率にバイアスをかけるだけですが、ほとんどの手法では相対的な順序はきちんと安定しているはずです。
マイノリティクラスが500を超える限り、パラメーターの推定値は十分に正確であり、影響は切片にのみ影響するため、ロジスティック回帰はクラスの不均衡に適しています。欲しいです。ロジスティック回帰は、クラスだけでなく確率をモデル化するため、ニーズに合わせてさらに手動で調整できます。
多くの分類手法には、少数派クラスにさらに焦点を絞るのに役立つクラス重み付け引数もあります。真のマイノリティクラスのミス分類にペナルティを課すため、全体的な精度は少し低下しますが、正しく分類されたマイノリティクラスがさらに表示されるようになります。