2
オーバーサンプリングされた不均衡データの分類のテスト
私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング(オーバーサンプリングまたはアンダーサンプリング)を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。 SMOTE:合成マイノリティオーバーサンプリングTEchnique(SMOTE) ADASYN:不均衡学習のための適応合成サンプリングアプローチ(ADASYN) ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。 私の質問は、ADASYN(またはその他のオーバーサンプリング手法)によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。 1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します(または相互検証)。 2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします(クロス検証で実行できます)。 最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。 そのようなデータをテストする他の設定があるかどうかはわかりません。