非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。
1)トレーニングセット全体に重み付きSVMを使用する(P:1200、N:12000)
2)サンプリングされたトレーニングセット(P:1200、N:1200)に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。
どのアプローチが優れているかを決定するための理論的なガイダンスはありますか?テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか?
1
以下の質問を確認してください:「レア」イベントと教師付き学習とSVMとのアンバランスマルチクラスのデータセットを処理するための最良の方法を。これは役立ちますか?率直に言って、あなたの質問はかなり似ているようです;)。
—
ステフェン