SMOTE実行後のトレーニング/テスト分割

8

私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。

SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。

ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある（つまり、情報がトレーニングセットからテストセットにリークしている）ため、テストセットは実際にはクリーンセットではないテスト。

誰か似たような経験はありますか？情報は本当にトレーニングからテストに漏れていますか？または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか？

どうもありがとう！

machine-learning unbalanced-classes evaluation

— 枝豆
ソース

13

サンプリング手法（特に合成）を使用する場合は、最初にデータを分割してから、トレーニングデータにのみ合成サンプリングを適用します。トレーニング後、テストセット（元のサンプルのみを含む）を使用して評価します。戦略を使用する場合のリスクは、トレーニング（テスト）の元のサンプルと、テスト（トレーニング）セットの（この元のサンプルに基づいて作成された）合成サンプルを持つことです。

— バシャーハダッド
ソース

1

どうもありがとう、確かにあなたのポイントを理解してください。それから私はこの方法を考えているのですが、n分割交差検証を実行することはできませんよね？私のデータは非常に小さいので（特に少数派のクラスの場合）、できるだけ多くのデータを使用しようとしています。

— 枝豆

3

あなたの最後の質問ごと：

それから私はこの方法を考えているのですが、n分割交差検証を実行することはできませんよね？データが非常に小さいため（特に少数派のクラスの場合）

本当じゃない。データが本当に小さい場合は、アップサンプリングを試すことができます（ただし、どれくらい小さいですか？）

— Y.Hiko
ソース