最近の好評の質問で、Timは、機械学習で不均衡なデータが本当に問題になるのはいつかを尋ねます。質問の前提は、クラスバランスと不均衡クラスの問題について議論する多くの機械学習文献があるということです。考え方は、ポジティブクラスとネガティブクラスの間に不均衡があるデータセットは、一部の機械学習分類(ここでは確率モデルを含む)アルゴリズムに問題を引き起こし、完全な50/50を復元するために、データセットを「バランス」する方法を探さなければならないということです。正と負のクラスに分割します。
賛成の回答の一般的な意味は、「少なくともモデリングに思慮深い場合はそうではない」ということです。M.ヘンリーL.は、受け入れられた答えに対する上向きのコメントで、次のように述べています。
[...]不均衡なデータの使用には、低レベルの問題はありません。私の経験では、「不均衡なデータを回避する」というアドバイスは、アルゴリズム固有のものか、継承された知恵です。私は、一般に、不均衡なデータは明確に指定されたモデルに概念的な問題をもたらさないというAdamOに同意します。
AdamOは、クラスバランスの「問題」は本当にクラス希少性の 1つだと主張
したがって、少なくとも回帰では(ただし、すべての状況で疑わしい)、不均衡なデータの唯一の問題は、サンプルサイズが事実上小さいことです。まれなクラスの人数に適した方法がある場合、そのメンバーシップの割合が不均衡であれば問題はありません。
これが目前の真の問題である場合、データセットのバランスを取ることを目的としたすべてのリサンプリング方法の目的は何ですか:オーバーサンプリング、アンダーサンプリング、SMOTEなど、未解決の問題が残ります。 明らかに、サンプルサイズが暗黙的に小さいという問題に対処していないため、何もないところから情報を作成することはできません!