ロジスティック回帰、SVM、決定木、バギング、およびその他の類似の質問を使用する際に、不均衡なデータについて複数の質問がありました。これが非常に人気のあるトピックです。残念ながら、各質問はアルゴリズム固有であるようで、不均衡なデータを扱うための一般的なガイドラインは見つかりませんでした。
不均衡なデータを扱うMarc Claesenの回答の1つを引用
(...)学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ(または複数の)方法があります。
しかし、データの不均衡について正確に心配する必要があるのはいつですか?主に影響を受けるのはどのアルゴリズムで、どのアルゴリズムを処理できますか?データのバランスを取るためにどのアルゴリズムが必要ですか?このようなQ&Aサイトでは、各アルゴリズムについて議論することは不可能であることを認識しています。むしろ、いつ問題になるかについての一般的なガイドラインを探しています。