私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング(オーバーサンプリングまたはアンダーサンプリング)を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。
ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。
私の質問は、ADASYN(またはその他のオーバーサンプリング手法)によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。
1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します(または相互検証)。
2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします(クロス検証で実行できます)。
最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。
そのようなデータをテストする他の設定があるかどうかはわかりません。