不均衡なデータセットの作成

訓練されたモデルを不均衡なデータセットでテストしてもらいたいのですが。バランスのとれたラベル付きデータセット（スパム/非スパム）から合成データを生成するために利用できるアルゴリズムはありますか？

unbalanced-classes synthetic-data

— スチュアート・ピーターソン
ソース

1つのクラスをアンダーサンプリングするだけで、常にデータセットのバランスをとることができます。

— user2974951

オーバーサンプリングに使用されるアルゴリズムであるSMOTEを試してください。オーバーサンプリングするクラスから合成サンプルを作成します。

これを使用して、必要な数のサンプルを作成できます。

— メアリー93
ソース

SMOTEはアンダーサンプリングにも使用できますか？

— スチュアートピーターソン

まあ、クラスnotAをオーバーサンプリングすることでクラスAのアンダーサンプリングを取得できます...

— kjetil b halvorsen '19

@StuartPetersonいいえ、SMOTEはオーバーサンプリングアルゴリズムですが、他にも多くのアンダーサンプリングアルゴリズムがあります

— Mary93