一般的なオーバーサンプリング、および特にSMOTEアルゴリズムに関する意見[非公開]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。

この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。

閉まっている 2年前にました。

一般的な分類、特にSMOTEアルゴリズムのオーバーサンプリングについてのあなたの意見は何ですか？クラスデータの不均衡と不均衡なエラーコストを調整するために、単にコスト/ペナルティを適用しないのはなぜですか？私の目的では、将来の一連の実験ユニットに対する予測の精度が究極の尺度です。

参考のために、SMOTEの論文： http

machine-learning classification oversampling

— デイブ・カミンズ
ソース

不均衡なデータセットでマイノリティクラスをオーバーサンプリングする際の問題の1つは、いくつかの例の特定の部分を学習しすぎてしまい、それがうまく一般化されないことです。SMOTEはマイノリティクラスのそれらのポイントの近傍のトポロジ特性を学習することになっているため、過剰適合する可能性は低くなります。

— horaceT

これは質問に最適なトピックですが、もう少し焦点を絞ることはできますか？"あなたの意見は何ですか？" 無限の議論を招きますが、質問/回答の形式により焦点を当てる傾向があります。

— シコラックスは、モニカーを復活させる

{1}には、コスト重視の学習とサンプリングの利点と欠点のリストがあります。

2.2サンプリング

オーバーサンプリングとアンダーサンプリングは、トレーニングデータのクラス分布を変更するために使用でき、両方のメソッドはクラスの不均衡に対処するために使用されています[1、2、3、6、10、11]。トレーニングデータのクラス分布を変更すると、非常に歪んだデータセットで学習するのに役立つ理由は、不均一な誤分類コストを効果的に課すためです。たとえば、正の例と負の例の比が1：1から2：1になるようにトレーニングセットのクラス分布を変更すると、2：1の誤分類コスト比が効果的に割り当てられます。トレーニングデータのクラス分布の変更と誤分類コストの比率の変更との間のこの同等性はよく知られており、Elkan [9]によって正式に説明されました。

サンプリングを使用してコスト重視の学習を実装することに関連する既知の欠点があります。アンダーサンプリングの 欠点は、潜在的に有用なデータを破棄することです。オーバーサンプリングの主な欠点は、私たちの観点からは、既存の例を正確にコピーすることにより、オーバーフィッティングが発生しやすくなることです。実際、オーバーサンプリングでは、学習者が1つの複製された例をカバーする分類ルールを生成することは非常に一般的です。オーバーサンプリングの2番目の欠点は、トレーニングサンプルの数が増えるため、学習時間が増えることです。

2.3サンプリングを使用する理由

サンプリングの欠点を考えると、歪んだクラス分布と不均一な誤分類コストでデータを処理するために、コストに敏感な学習アルゴリズムではなく、誰がそれを使用するのかを尋ねる価値があります。これにはいくつかの理由があります。最も明らかな理由は、すべての学習アルゴリズムのコスト重視の実装がないため、サンプリングを使用するラッパーベースのアプローチが唯一のオプションであるということです。これは確かに過去よりも今日では確かに真実ではありませんが、多くの学習アルゴリズム（C4.5など）はまだ学習プロセスのコストを直接処理していません。

サンプリングを使用する2番目の理由は、多くの高度に歪んだデータセットが膨大であり、学習を実行可能にするためにトレーニングセットのサイズを小さくする必要があることです。この場合、アンダーサンプリングは合理的で有効な戦略のようです。このホワイトペーパーでは、トレーニングセットのサイズを削減する必要性は考慮していません。ただし、トレーニングデータの一部を破棄する必要がある場合、トレーニングセットのサイズを必要なサイズに減らしてから、コストクラスを使用するために多数のクラスの例の一部を破棄することも有益な場合があることを指摘します。破棄されるトレーニングデータの量が最小化されるように、敏感な学習アルゴリズム。

コストに敏感な学習アルゴリズムではなくサンプリングの使用に貢献したかもしれない最後の理由は、誤分類コストがしばしば未知であるということです。ただし、これは、サンプリングに類似した問題が発生するため、コスト重視の学習アルゴリズムでサンプリングを使用する正当な理由ではありません。最終的なトレーニングデータのクラス分布はどうあるべきでしょうか。このコスト情報が不明な場合、ROC曲線下の面積などの指標を使用して分類子のパフォーマンスを測定し、両方のアプローチで適切なコスト比/クラス分布を経験的に決定できます。

彼らは一連の実験も行いましたが、決定的ではありませんでした。

すべてのデータセットの結果に基づいて、コストに敏感な学習、オーバーサンプリング、アンダーサンプリングの間に決定的な勝者はありません

次に、データセット内のどの基準が、どの手法がより適しているかを示唆する可能性があることを理解しようとします。

彼らはまた、SMOTEがいくつかの機能強化をもたらす可能性があると述べています。

サンプリングの有効性を改善するために人々が行ったさまざまな機能強化があります。これらの機能強化には、オーバーサンプリング[5-> SMOTE]での新しい「合成」サンプルの導入、アンダーサンプリング[11]での有用性の低い多数クラスのサンプルの削除、各サンプルが少なくとも1つで使用される場合の複数のサブサンプルの使用が含まれますサブサンプル[3]。これらの手法は、オーバーサンプリングおよびアンダーサンプリングと比較されていますが、一般に、コストに敏感な学習アルゴリズムと比較されていません。これは将来勉強する価値があります。

{1}ワイス、ゲイリーM.、ケイトマッカーシー、およびビビザバー。「コストに敏感な学習とサンプリング：等しくないエラーコストで不均衡なクラスを処理するのに最適なのはどれですか？」DMIN 7（2007）：35-41。https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

— フランク・ダーノンクール
ソース

「コストに敏感な学習アルゴリズム」と言うとき、私の脳は「発生頻度の高いクラスにペナルティを科し、低頻度のクラスにより重要度を割り当てる」と考えるべきですか？この概念はクラスの重みを割り当てることと同等ですか？

— ジャラッド