2
非常に不均衡なデータセットのトレーニングアプローチ
非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。 1)トレーニングセット全体に重み付きSVMを使用する(P:1200、N:12000) 2)サンプリングされたトレーニングセット(P:1200、N:1200)に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。 どのアプローチが優れているかを決定するための理論的なガイダンスはありますか?テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか?