不均衡なデータセットの作成


11

訓練されたモデルを不均衡なデータセットでテストしてもらいたいのですが。バランスのとれたラベル付きデータセット(スパム/非スパム)から合成データを生成するために利用できるアルゴリズムはありますか?


1つのクラスをアンダーサンプリングするだけで、常にデータセットのバランスをとることができます。
user2974951

回答:


8

オーバーサンプリングに使用されるアルゴリズムであるSMOTEを試してください。オーバーサンプリングするクラスから合成サンプルを作成します。

これを使用して、必要な数のサンプルを作成できます。


1
SMOTEはアンダーサンプリングにも使用できますか?
スチュアートピーターソン

まあ、クラスnotAをオーバーサンプリングすることでクラスAのアンダーサンプリングを取得できます...
kjetil b halvorsen '19

3
@StuartPetersonいいえ、SMOTEはオーバーサンプリングアルゴリズムですが、にも多くのアンダーサンプリングアルゴリズムがあります
Mary93
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.