非常に不均衡なデータセットのトレーニングのクイックガイド

29

トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。

ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか？

RF以外のどの分類方法が問題を最善の方法で処理できますか？

— イハール
ソース

stats.stackexchange.com/q/247871/232706

— Ben

19

Max Kuhnは、Applied Predictive Modelingの Ch16でこれについて詳しく説明しています。
リンクされたスレッドで述べたように、不均衡なデータは本質的にコストに敏感なトレーニングの問題です。したがって、コストに敏感なアプローチは、不均衡なデータに適用できます。
そのようなアプローチは多数あります。R：C50にすべて実装されているわけではありませんが、加重SVMはオプションです。ジュウブースト。RusboostはMatlabコードとしてのみ利用可能だと思います。
Wekaは使用していませんが、コスト重視の分類器が多数あると考えています。
不均衡なデータセットの処理：レビュー：Sotiris Kotsiantis、Dimitris Kanellopoulos、Panayotis Pintelas '
階級不均衡問題について：新j郭、Y龍陰、ケイリング・ドン、公平ong、周広広

— チャールズ
ソース

16

このような状況では、大多数のクラスをアンダーサンプリングするのが通常の方法です。

ポジティブクラスのインスタンスが少なすぎると思われる場合は、オーバーサンプリングを実行できます。たとえば、サイズnのデータセットからの置換で5nインスタンスをサンプリングします。

警告：

一部のメソッドは、たとえばNaive Bayesのように、クラス分布の変化に敏感な場合があります-事前確率に影響します。
オーバーサンプリングはオーバーフィットにつながる可能性があります

— アレクセイ・グリゴレフ
ソース

それとも、いくつかのクラスタリングアルゴリズムを試して、クラスターの中心を使用しますか？

— リーラプラブー

不均衡なデータセットに対処するために、オーバーリンクやその他の方法についてこのリンクを確認できます。

— ジャンプレトシン

11

ここでは、勾配ブースティングも良い選択です。たとえば、sci-kit learnで勾配ブースティング分類器を使用できます。勾配ブースティングは、誤って分類された例に基づいて連続したトレーニングセットを構築することにより、クラスの不均衡に対処する原則的な方法です。

— クワーランド
ソース

1

：私の理解では、不均衡なデータを扱うRFと同じ制限を受けるを高めること勾配であるsci2s.ugr.es/keel/pdf/algorithm/articulo/...

— チャールズ

1

ブースティングは、不均衡に直接対処するフォレストを構築するための追加の手順です。リンクする論文では、イントロでブースティングを説明しており、不均衡がない場合でも役立ちます。そして、その論文は、ブースティングが非常に役立つと結論づけています。そこで、RFとブースティングの等価性がどこに示されているかわかりませんか？

— cwharland

1

ここに投稿された回答に加えて、ポジティブな例の数がネガティブな例と比較して少なすぎる場合、ポジティブな例が異常である異常検出問題に近づきます。

多変量ガウス分布を使用してすべてのポイントをモデル化し、平均から2または3離れたポイントを選択することから、異常を検出するためのさまざまな方法があります。

思考の別の食べ物-両方のクラスの数が同じになるように、より多くの例で否定的な例をランダムにサンプリングするかなりの数の人々を見てきました。バランスを取りたいかどうかは、手元の問題次第です。

— RAM
ソース