データセットと2つのグループに分けられた約4000人の顧客のバランスをとるために、オーバーサンプリングとアンダーサンプリングの組み合わせを実行します。グループの1つは約15%の割合です。
私はSMOTE(http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE)とROSE(http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf)ですが、これらはどちらも既存の観測結果(kNNなど)を使用して新しい合成サンプルを作成します。
ただし、顧客に関連付けられている属性の多くはカテゴリー的であるため、これが正しい方法だとは思いません。たとえば、Region_AやRegion_Bなどの多くの変数は相互に排他的ですが、kNNを使用すると、新しい観測値がRegion_AとRegion_Bの両方に配置される場合があります。これが問題であることに同意しますか?
その場合-単に既存の観測を複製することによって、Rでオーバーサンプリングをどのように実行しますか?それともこれは間違った方法ですか?