データセットを不均衡と見なす必要があるのはいつですか?


10

データセット内の正と負の例の数が不均衡な状況に直面しています。

私の質問は、データセットである種のバランシングを強制するために大きなカテゴリをサブサンプリングする必要があるときを教えてくれる経験則がありますか?

例:

  • 正の例の数が1,000で負の例の数が10,000の場合、データセット全体で分類器をトレーニングする必要がありますか、それとも負の例をサブサンプリングする必要がありますか?
  • 1,000の正の例と100,000の負の例についても同じ質問です。
  • 10,000人が肯定的で1,000人が否定的である場合も同じ質問です。
  • 等...

それ自体が真ん中に完全に分割されないデータセットに問題はありません。どのモデリング手法を使用していますか?この手法が「バランスのとれた」データに依存している場合は、間違った手法を使用している可能性があります。
D3C34C34D 2016年

1
Nina Zumelは、ここでさまざまな推定量に対するバランスの影響を調べています。これは、他の人にも役立つ可能性があります。彼女はランダムフォレスト、SVM、ロジット推定値を調べます。
CFM

回答:


9

サブサンプリング(ダウンサンプリング)は、基本レベルでクラスの不均衡を制御する一般的な方法だと思います。つまり、問題の根本を修正します。したがって、すべての例で、毎回クラスの過半数の1,000をランダムに選択することができます。10個のモデル(1,000人の多数派と1,000人の少数派の10倍)を作成して、データセット全体を使用することもできます。この方法を使用できますが、いくつかのアンサンブル方法を試さない限り、9,000個のサンプルを破棄することになります。簡単に修正できますが、データに基づいて最適なモデルを取得するのは困難です。

クラスの不均衡を制御する必要がある程度は、主に目標に基づいています。純粋な分類に関心がある場合は、ほとんどの手法で不均衡が50%の確率カットオフに影響を与えるため、ダウンサンプリングを検討します。分類の順序のみに関心があり(一般にポジティブはネガティブよりも高くしたい)、AUCなどのメジャーを使用する場合、クラスの不均衡は確率にバイアスをかけるだけですが、ほとんどの手法では相対的な順序はきちんと安定しているはずです。

マイノリティクラスが500を超える限り、パラメーターの推定値は十分に正確であり、影響は切片にのみ影響するため、ロジスティック回帰はクラスの不均衡に適しています。欲しいです。ロジスティック回帰は、クラスだけでなく確率をモデル化するため、ニーズに合わせてさらに手動で調整できます。

多くの分類手法には、少数派クラスにさらに焦点を絞るのに役立つクラス重み付け引数もあります。真のマイノリティクラスのミス分類にペナルティを課すため、全体的な精度は少し低下しますが、正しく分類されたマイノリティクラスがさらに表示されるようになります。


「マイノリティクラスが500を超えている限り」のガイダンスを拡張できますか?この500という数字はどこで手に入れたのですか。それはあなたの経験に基づいていますか?私はあなたの答えからパーセンテージを期待していました。
Jas

2

不均衡は正式に定義されていませんが、1対10の比率は、通常、バランス技法を使用することから利益を得るために十分に不均衡です。

不均衡には、相対と絶対の2つのタイプがあります。親族では、多数派と少数派のクラス間の比率は不均衡です。絶対的に、少数の少数のサンプルもあります。不均衡率が高いほど、絶対不均衡に達する可能性も高くなります。

単純なサブサンプリングは、不均衡なデータセットに対処する最適な方法ではないことに注意してください。これは、元のデータセットで適切に機能する分類器を作成する必要があるためです。不均衡なデータセットに分類子を構築する手法については、こちらを参照してください。分類子の評価については、こちらをご覧ください


2

データの不均衡の問題?? 理論的には、それは数についてのみです。差が1サンプルでもデータ不均衡です

実際には、これがデータの不均衡の問題であると言うことは、次の3つの要素によって制御されます。1。持つサンプルの数と分布2.同じクラス内の変動3.異なるクラス間の類似

最後の2つのポイントは、問題に対する私たちの考え方を変えます。

これを説明するために例を挙げましょう:クラスA = 100サンプルクラスB = 10 000

クラスB内の変動が非常に小さい場合、ダウンサンプリングで十分であり、データの不均衡の問題はありません。

クラスb内で変動が非常に大きい場合、ダウンサンプリングは情報の損失につながる可能性があり、ダウンサンプリングを適用することは危険です

もう1つのポイントは、多数のサンプル(主にマイノリティクラス用)があると、データの不均衡の問題が緩和され、扱いやすくなります。

例10:100。1000:10000

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.