高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか？

14

バイアスの高いバイナリデータセットがあります。ポジティブクラスよりもネガティブクラスの例が1000倍多くあります。このデータでツリーアンサンブル（エクストラランダムツリーやランダムフォレストなど）をトレーニングしたいのですが、ポジティブクラスの十分な例を含むトレーニングデータセットを作成するのは困難です。

層化されたサンプリングアプローチを行って、肯定的な例と否定的な例の数を正規化することの意味は何でしょうか言い換えると、たとえば、トレーニングセット内の肯定的なクラスの例の数を人為的に（リサンプリングによって）膨らませることは悪い考えですか？

machine-learning feature-selection unbalanced-classes

— ガラミン
ソース

10

はい、問題があります。少数派をオーバーサンプリングすると、過剰適合のリスクがあります。過半数をアンダーサンプリングすると、過半数クラスの側面が失われる危険があります。層別サンプリング（btw）は、不均一な誤分類コストを割り当てることと同等です。

代替案：

（1）@Debasisの回答およびこのEasyEnsemble論文で説明されているように、多数派クラスからいくつかのサブセットを独立してサンプリングし、各サブセットをすべての少数派クラスデータと組み合わせて複数の分類器を作成します。

（2）SMOTE（Synthetic Minority Oversampling Technique）またはSMOTEBoost（SMOTEとブースティングの組み合わせ）は、特徴空間で最近傍を作成することにより、マイノリティクラスの合成インスタンスを作成します。SMOTEはDMwRパッケージの Rに実装されています。

— マットバッグ
ソース

11

データのよりバランスの取れたサブセットでトレーニングすることをお勧めします。負のサンプルの数が同じで、ランダムに選択された正の例のセットでランダムフォレストをトレーニングします。特に、識別機能が多くの分散を示す場合、これはかなり効果的であり、過剰適合を回避します。ただし、成層では、過剰適合が問題になりかねないため、バランスを見つけることが重要です。モデルがデータセット全体でどのように機能するかを確認し、正のサンプルと負のサンプルの比率を徐々に増やして偶数比にし、いくつかの代表的なホールドデータのパフォーマンスメトリックを最大化するものを選択することをお勧めします。

この論文はかなり関連性が高いと思われますhttp://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdfそれweighted Random Forestは少数派の誤分類をより厳しく罰することについて話します。

— インディコ
ソース

4

この不均衡にアプローチするための、速くて簡単な、しばしば効果的な方法は、大きなクラス（あなたの場合は負のクラス）をランダムにサブサンプリングし、2つのクラスのメンバー（一方が完全で他方がサブサンプリング）平均メトリック値をレポートします。平均はN回（たとえば1000回）の反復で計算されます。

より系統的なアプローチは、マッピング収束（MC）アルゴリズムを実行することです。これは、OSVMやSVDDなどの1クラス分類子の助けを借りて強い負のサンプルのサブセットを識別し、そのセットに対してバイナリ分類を繰り返し実行します。強い負および正のサンプルの。MCアルゴリズムの詳細については、このペーパーを参照してください。

— デバシス
ソース

0

上記のように、最良の方法は、多数回クラスをN回繰り返しサンプリングすることです（置換なしのサンプリング）。そのたびに、負のクラスのサイズは正のクラスのサイズに等しくなければなりません。これで、N個の異なる分類器をトレーニングでき、平均を使用して評価できます。

別の方法は、ブートストラップの手法を使用することです。これにより過剰適合が発生する可能性がありますが、試してみる価値があり、必要であれば、過剰適合を回避するためにモデルを正規化できます。

— 羊
ソース