機械学習のコンテキストで、実際の母集団のクラスのバランスが取れていないという問題があるとします。たとえば、クラスAは80%の確率で発生し、クラスBは20%の確率で発生します。
そのような場合、一般的に、特定のMLアルゴリズムが同じ80/20クラス比率のデータ、またはバランスのとれた(50/50)比率のデータに依存する方が良いですか?a)トレーニングデータに関してb)テストデータに関して
フォローアップの質問:(a)または(b)の答えが偶然50/50の比率で起こっている場合、この設定は一般に、アクセスするデータが存在する実際のコンテキストでも永続しますか? 80/20比の?言い換えれば、トレーニングやテストにバランスのとれた比率を使用することの利点は、その比率を適用するコストを上回りますか(たとえば、多数派クラスからインスタンスを破棄するか、少数派クラスの新しい合成サンプルを生成することによって)?