非常に不均衡なデータセットのトレーニングアプローチ


16

非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。

1)トレーニングセット全体に重み付きSVMを使用する(P:1200、N:12000)

2)サンプリングされたトレーニングセット(P:1200、N:1200)に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。

どのアプローチが優れているかを決定するための理論的なガイダンスはありますか?テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか?


1
以下の質問を確認してください:「レア」イベントと教師付き学習SVMとのアンバランスマルチクラスのデータセットを処理するための最良の方法を。これは役立ちますか?率直に言って、あなたの質問はかなり似ているようです;)。
ステフェン

回答:



0

ペアワイズ拡張ロジスティック回帰、ROCベースの学習、ブースティングおよびバギング(ブートストラップ集約)、リンクベースのクラスターアンサンブル(LCE)、ベイジアンネットワーク、最近傍重心分類器、ベイジアン手法、加重ラフセット、k-NN

不均衡を処理するための多くのサンプリング方法。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.