オーバーサンプリングされた不均衡データの分類のテスト


18

私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング(オーバーサンプリングまたはアンダーサンプリング)を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。

  • SMOTE:合成マイノリティオーバーサンプリングTEchnique(SMOTE

  • ADASYN:不均衡学習のための適応合成サンプリングアプローチ(ADASYN

ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。

私の質問は、ADASYN(またはその他のオーバーサンプリング手法)によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。

1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します(または相互検証)。

2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします(クロス検証で実行できます)。

最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。

そのようなデータをテストする他の設定があるかどうかはわかりません。

回答:


18

いくつかのコメント:

オプション(1)は非常に悪い考えです。同じポイントのコピーは、トレーニングセットとテストセットの両方で終わる可能性があります。これにより、分類器はチートすることができます。これは、テストセットで予測を行おうとしたときに、分類器が既にトレインセット内の同一ポイントを見ているためです。テストセットとトレインセットを持つことの全体的なポイントは、テストセットがトレインセットから独立している必要があるということです。

k


返信してくれたステファンに感謝します。しかし、私はポイントを明確にしたい:私が言及した方法は、データの「合成」インスタンスを作成し、元のインスタンスとまったく同じではありません。したがって、同じトレーニングデータでテストしているのとまったく同じではありません。しかし、オプション1が有効なアプローチであるかどうかはまだわかりません。
運賃

なるほど、分かりました!ただし、(1)の問題は、「合成」データを作成した場合でも保持されます。これは、合成データが通常、模倣している元のデータと非常に似ているためです。
ステファンウェイガー

@StefanWagerテストセットの配布についてはどうですか?元のデータセットと同じにする必要がありますか?
wannik

2
この主張を裏付ける記事の参照はありますか?
girl101

@stefanのアプローチは正しいです。モデルの学習方法の証明(テスト)であるため、検証セットを
追加し

7

2番目の(2)オプションは、それを行う正しい方法です。オーバーサンプリング手法を使用して作成する合成サンプルは、実際の例ではなく合成です。これらはテスト目的には有効ではありませんが、トレーニングには問題ありません。これらは、アルゴリズムを変更せずに分類子の動作を変更することを目的としています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.