非常に不均衡なデータセットのトレーニングアプローチ

16

非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。

1）トレーニングセット全体に重み付きSVMを使用する（P：1200、N：12000）

2）サンプリングされたトレーニングセット（P：1200、N：1200）に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。

どのアプローチが優れているかを決定するための理論的なガイダンスはありますか？テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか？

— ビット質問
ソース

1

以下の質問を確認してください：「レア」イベントと教師付き学習とSVMとのアンバランスマルチクラスのデータセットを処理するための最良の方法を。これは役立ちますか？率直に言って、あなたの質問はかなり似ているようです;）。

— ステフェン

7

redditに関する最近の投稿から、datapraxisによる返信が興味を引くでしょう。

編集：言及された論文は、Haibo He、Edwardo A. Garcia、「不均衡なデータから学ぶ」、IEEE Transactions on Knowledge and Data Engineering、pp。1263-1284、2009年9月（PDF）

— user728785
ソース

0

ペアワイズ拡張ロジスティック回帰、ROCベースの学習、ブースティングおよびバギング（ブートストラップ集約）、リンクベースのクラスターアンサンブル（LCE）、ベイジアンネットワーク、最近傍重心分類器、ベイジアン手法、加重ラフセット、k-NN

不均衡を処理するための多くのサンプリング方法。

— ウラジミール・チュパキン
ソース