回答:
はい、問題があります。少数派をオーバーサンプリングすると、過剰適合のリスクがあります。過半数をアンダーサンプリングすると、過半数クラスの側面が失われる危険があります。層別サンプリング(btw)は、不均一な誤分類コストを割り当てることと同等です。
代替案:
(1)@Debasisの回答およびこのEasyEnsemble論文で説明されているように、多数派クラスからいくつかのサブセットを独立してサンプリングし、各サブセットをすべての少数派クラスデータと組み合わせて複数の分類器を作成します。
(2)SMOTE(Synthetic Minority Oversampling Technique)またはSMOTEBoost(SMOTEとブースティングの組み合わせ)は、特徴空間で最近傍を作成することにより、マイノリティクラスの合成インスタンスを作成します。SMOTEはDMwRパッケージの Rに実装されています。
データのよりバランスの取れたサブセットでトレーニングすることをお勧めします。負のサンプルの数が同じで、ランダムに選択された正の例のセットでランダムフォレストをトレーニングします。特に、識別機能が多くの分散を示す場合、これはかなり効果的であり、過剰適合を回避します。ただし、成層では、過剰適合が問題になりかねないため、バランスを見つけることが重要です。モデルがデータセット全体でどのように機能するかを確認し、正のサンプルと負のサンプルの比率を徐々に増やして偶数比にし、いくつかの代表的なホールドデータのパフォーマンスメトリックを最大化するものを選択することをお勧めします。
この論文はかなり関連性が高いと思われますhttp://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdfそれweighted Random Forest
は少数派の誤分類をより厳しく罰することについて話します。
この不均衡にアプローチするための、速くて簡単な、しばしば効果的な方法は、大きなクラス(あなたの場合は負のクラス)をランダムにサブサンプリングし、2つのクラスのメンバー(一方が完全で他方がサブサンプリング)平均メトリック値をレポートします。平均はN回(たとえば1000回)の反復で計算されます。
より系統的なアプローチは、マッピング収束(MC)アルゴリズムを実行することです。これは、OSVMやSVDDなどの1クラス分類子の助けを借りて強い負のサンプルのサブセットを識別し、そのセットに対してバイナリ分類を繰り返し実行します。強い負および正のサンプルの。MCアルゴリズムの詳細については、このペーパーを参照してください。