回答:
多くのフレームワークとアプローチがあります。これは再発する問題です。
例:
技術的な複雑さ/詳細レベルの昇順でのいくつかのレビュー:
ああ、ところで、90%/ 10%はアンバランスではありません。多くの場合、カード取引詐欺のデータセットは99.97%/ 0.03%に分割されます。これは不均衡です。
これは学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ(または複数の)方法があります。一般的な修正方法は、マイノリティクラスにより高い誤分類ペナルティを割り当て、分類器にそれらを認識させることです(SVM、ロジスティック回帰、ニューラルネットワークなど)。
あなたが言及したように、サンプリングを変更することも可能です。この場合、通常、マイノリティクラスのオーバーサンプリングは、マジョリティクラスのアンダーサンプリングよりも優れたソリューションです。
ランダムフォレストなどの一部のメソッドは、変更を必要としません。
2つのトリックを追加します。1. CDFを使用し、トレーニングデータの頻度をカウントするか、非常に大きな検証を使用します(テストセットが変更されない場合、検証セットはトレーニングセットと同じ分布を持っている必要があります)。次に、予測をソートし、 1つのクラスの最初のX%(前の頻度をカウント)と他のクラスはelse / 2です。重み付けされたサンプル、モデルは重み付けされたサンプルクラスになる傾向があり、サンプルの分散vを使用できます。weighti = 1/2(1-(vmax-vi)/ vmax)