高度に不均衡なテストデータセットと分類におけるバランスのとれたトレーニングデータ


9

約3000の正のインスタンスと3000の負のインスタンスのトレーニングセットがあります。しかし、私のテストデータセットはほとんどバランスが取れていません。正のセットには50個のインスタンスしかなく、負のセットには1500個のインスタンスがあります。これにより、精度が非常に低くなります。この問題を解決する方法はありますか?SVMを使用して分類子を作成します。


3
これは起こらないはずです...トレーニングデータとテストデータは、同じデータセットからランダムに選択する必要があります。
Peter Flom

回答:


5

これをデータセットシフト設定といいます。このPDF [1]は、関連する根本的な問題のいくつかを理解するのに役立ちます。

ただし、現時点では、最小二乗重要度フィッティングを使用して、テストセットを使用してトレーニングデータの重要度推定を取得できます(テストセットラベルは不要で、特徴ベクトルのみ)[2]。重要度の見積もりを取得したら、それらをlibSVM [3]でインスタンスの重みとして使用できます。

これにより、より良い分類子を取得できるようになります。

[1] http://www.acad.bg/ebook/ml/The.MIT.Press.Dataset.Shift.in.Machine.Learning.Feb.2009.eBook-DDU.pdf
[2] http:// www .ms.ku-tokyo.ac.jp / software.html#uLSIF
[3] http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/#weights_for_data_instances


トレーニングセットはバランスが取れているが、テストセットはバランスが取れていない場合はどうなりますか?彼らは両方とも同じ分布を持つべきですか?
wannik 2014年

1
@wannikトレーニングとテストセットが実際のデータからのランダムなサンプルである場合、それらは同一の分布でなければなりません。私たちが使用するほとんどすべての分類子は、データがこの形式であることを期待しています。ただし、説明する状況はかなり一般的なシナリオです。この状況での分類器の動作を予測することは困難です。一般に、1]うまく機能する場合はプレーンな分類子を使用します。2]機能しない場合は、テストでクラスの比率を演繹的に知っていますか?はいの場合は、トランスダクションSVMを使用します3]そうでない場合は、元の回答で説明したのと同じアプローチを使用します(重要度の重み)。
TenaliRaman 2014年

1
杉山らの重要度推定ソフトウェアへのリンクを更新。ms.ku-tokyo.ac.jp/software.html#uLSIF
AruniRC、

1

「現実の世界」は、トレーニングセットやテストセットに似ていると思いますか。トレーニングセットのように見える場合は、ネガティブテストセットから50個のインスタンスをランダムにサンプリングして、より公平な精度の見積もりを取得できます。しかし、私はピーターフロムに同意します。一般的に、テストセットとトレーニングセットはどちらも同じように見えるはずです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.