私は、イベント発生率は非常に低くなっているデータセット(40,000のうち持つ)。これにロジスティック回帰を適用しています。ロジスティック回帰では、このような低イベントレートのデータについては適切な混同マトリックスが得られないという結果が出ました。しかし、ビジネス上の問題とその定義方法により、イベントの数を40,000からそれ以上に増やすことはできませんが、イベント以外の母集団を削除できることに同意します。
これに関するあなたの見解を具体的に教えてください:
- ロジスティック回帰の精度はイベントレートに依存しますか、または推奨される最小イベントレートはありますか?
- 低イベントレートデータ用の特別なテクニックはありますか?
- 非イベント母集団を削除すると、モデルの精度が向上しますか?
私は統計モデリングが初めてなので、私の無知を許し、考えられる関連する問題に対処してください。
おかげで、