SMOTE実行後のトレーニング/テスト分割


8

私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。

SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。

ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある(つまり、情報がトレーニングセットからテストセットにリークしている)ため、テストセットは実際にはクリーンセットではないテスト。

誰か似たような経験はありますか?情報は本当にトレーニングからテストに漏れていますか?または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか?

どうもありがとう!

回答:


13

サンプリング手法(特に合成)を使用する場合は、最初にデータを分割してから、トレーニングデータにのみ合成サンプリングを適用します。トレーニング後、テストセット(元のサンプルのみを含む)を使用して評価します。戦略を使用する場合のリスクは、トレーニング(テスト)の元のサンプルと、テスト(トレーニング)セットの(この元のサンプルに基づいて作成された)合成サンプルを持つことです。


1
どうもありがとう、確かにあなたのポイントを理解してください。それから私はこの方法を考えているのですが、n分割交差検証を実行することはできませんよね?私のデータは非常に小さいので(特に少数派のクラスの場合)、できるだけ多くのデータを使用しようとしています。
枝豆

3

あなたの最後の質問ごと:

それから私はこの方法を考えているのですが、n分割交差検証を実行することはできませんよね?データが非常に小さいため(特に少数派のクラスの場合)

本当じゃない。データが本当に小さい場合は、アップサンプリングを試すことができます(ただし、どれくらい小さいですか?)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.