応答の分布を意味しますか?つまり、「はい」が70ケース、「いいえ」が10000ケースありますか?
もしそうなら、それはデータマイニングアプリケーションの一般的な問題です。1,000,000のインスタンスを持つデータベースを想像してみてください。約1,000のケースのみが「はい」です。1%以下の応答率は、ビジネス予測モデリングでは一般的です。そして、特に与えられたモデルの安定性を評価することで、大きな問題であるモデルをトレーニングするためにサンプルを選択する場合。
私たちがすることは、異なる比率のサンプルを選ぶことです。前述の例では、「YES」のケースは1000件、たとえば「NO」のケースは9000件です。このアプローチにより、より安定したモデルが得られます。ただし、実際のサンプル(1,000,000行のサンプル)でテストする必要があります。
私はロジスティック回帰、決定木などのデータマイニングモデルでテストしました。しかし、「適切な」[1]統計モデルでは使用していません。
「統計のオーバーサンプリング」として検索できます。最初の結果はかなり良いです:http : //www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf
[1]「データマイニングではない」という意味の「適切な」。