私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。
SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。
ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある(つまり、情報がトレーニングセットからテストセットにリークしている)ため、テストセットは実際にはクリーンセットではないテスト。
誰か似たような経験はありますか?情報は本当にトレーニングからテストに漏れていますか?または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか?
どうもありがとう!