トレーニングセットのバランス
ロジスティック回帰モデルの場合、不均衡なトレーニングデータはモデルインターセプトの推定値のみに影響します(もちろん、これにより予測されるすべての確率がゆがみ、予測が損なわれます)。幸いなことに、インターセプトの修正は簡単です。0と1の真の割合を知っているか推測できる場合、およびトレーニングセットの割合を知っている場合は、レアイベントの修正をインターセプトに適用できます。詳細はKing and Zeng(2001) [ PDF ]にあります。
これらの「まれなイベントの修正」は、主に疫学で使用されるケースコントロール研究デザイン向けに設計されており、通常はバランスの取れた固定の0ケースと1ケースを選択してケースを選択し、結果のサンプル選択バイアスを修正する必要があります。実際、同じ方法で分類器をトレーニングすることができます。バランスのとれた適切なサンプルを選択してから、インターセプトを修正して、従属変数で選択した事実を考慮に入れて、ランダムサンプルが伝えることができるよりもまれなクラスについて詳しく学習します。
予測をする
関連するが明確なトピックについて:予測を行うためにインテリジェントにしきい値を設定する必要があることを忘れないでください。モデルの確率が0.5より大きい場合、常に1を予測するのが最善とは限りません。別のしきい値が優れている場合があります。このため、デフォルトの確率しきい値での予測成功だけでなく、分類器の受信者動作特性(ROC)曲線を調べる必要があります。