4
歪んだマルチクラスデータ
50クラスの約100,000サンプルを含むデータセットがあります。新しいデータをトレーニングして予測するために、RBFカーネルでSVMを使用しています。ただし、データセットが異なるクラスに偏っていることが問題です。 たとえば、クラス1-30(それぞれ〜3%)、クラス31-45(それぞれ〜0.6%)、クラス46-50(それぞれ〜0.2%) テストセットがトレーニングセットと同じクラス分布を持っている場合でも、モデルがトレーニングセットであまり頻繁に発生しないクラスを予測することはほとんどありません。 過半数のクラスをマイナークラスに縮小する「アンダーサンプリング」などの手法があることを知っています。しかし、これは非常に多くの異なるクラスがある場合にここで適用できますか?このケースを処理するのに役立つ他の方法はありますか?