タグ付けされた質問 「oversampling」

1
一般的なオーバーサンプリング、および特にSMOTEアルゴリズムに関する意見[非公開]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 閉まっている 2年前にました。 一般的な分類、特にSMOTEアルゴリズムのオーバーサンプリングについてのあなたの意見は何ですか?クラスデータの不均衡と不均衡なエラーコストを調整するために、単にコスト/ペナルティを適用しないのはなぜですか?私の目的では、将来の一連の実験ユニットに対する予測の精度が究極の尺度です。 参考のために、SMOTEの論文: http

2
オーバーサンプリングされた不均衡データの分類のテスト
私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング(オーバーサンプリングまたはアンダーサンプリング)を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。 SMOTE:合成マイノリティオーバーサンプリングTEchnique(SMOTE) ADASYN:不均衡学習のための適応合成サンプリングアプローチ(ADASYN) ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。 私の質問は、ADASYN(またはその他のオーバーサンプリング手法)によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。 1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します(または相互検証)。 2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします(クロス検証で実行できます)。 最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。 そのようなデータをテストする他の設定があるかどうかはわかりません。

2
R randomForestでの置換によるサンプリング
randomForest実装では、置換でサンプリングする場合でも、観測数を超えるサンプリングは許可されません。どうしてこれなの? 正常に動作します: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 私がしたいこと: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 層別サンプルなしの同様のエラー: rf <- randomForest(Species ~ …

1
カテゴリー変数を使用したオーバーサンプリング
データセットと2つのグループに分けられた約4000人の顧客のバランスをとるために、オーバーサンプリングとアンダーサンプリングの組み合わせを実行します。グループの1つは約15%の割合です。 私はSMOTE(http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE)とROSE(http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf)ですが、これらはどちらも既存の観測結果(kNNなど)を使用して新しい合成サンプルを作成します。 ただし、顧客に関連付けられている属性の多くはカテゴリー的であるため、これが正しい方法だとは思いません。たとえば、Region_AやRegion_Bなどの多くの変数は相互に排他的ですが、kNNを使用すると、新しい観測値がRegion_AとRegion_Bの両方に配置される場合があります。これが問題であることに同意しますか? その場合-単に既存の観測を複製することによって、Rでオーバーサンプリングをどのように実行しますか?それともこれは間違った方法ですか?

1
SMOTEはマルチクラスの不均衡問題に対してエラーをスローします
SMOTEを使用して、マルチクラス分類問題の不均衡を修正しようとしています。SMOTEは、SMOTEヘルプドキュメントのとおり、irisデータセットに対しては完全に機能しますが、同様のデータセットに対しては機能しません。これが私のデータの見え方です。値が1、2、3の3つのクラスがあることに注意してください。 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.