不均衡なクラスに対処するためのアプローチの分類


8

不均衡クラス問題に対処するために開発されたアプローチを分類する最良の方法は何ですか?

この記事では、それらを次のように分類しています。

  1. 前処理:オーバーサンプリング、アンダーサンプリング、ハイブリッド法を含みます
  2. コスト重視の学習:直接的な方法とメタ学習が含まれ、後者はさらにしきい値とサンプリングに分割されます。
  3. アンサンブル手法:アンサンブル学習と組み合わせたコスト重視のアンサンブルとデータ前処理が含まれます。

第二の分類:

  1. データの前処理:分布の変更とデータ空間の重み付けが含まれます。1クラス学習は、分布の変化と見なされます。
  2. 特別な学習方法
  3. 予測後処理:しきい値法とコスト重視の後処理を含みます
  4. ハイブリッドメソッド:

3番目の記事

  1. データレベルのメソッド
  2. アルゴリズムレベルの方法
  3. ハイブリッド法

最後の分類では、出力調整を独立したアプローチと見なしています。

前もって感謝します。


4
非常に短い答え:それらのすべてが最高であり、すべてが最悪です!分類とデータマイニングは、一般に状況に応じて異なります。このドメインでは、すべてのソリューションに適合する1つのサイズはありません。ところで、非常に一般的な言葉で言えば、最良のアプローチは通常、特徴抽出から評価スキームまで、さまざまなレベルでの最良の決定の組み合わせです。
mok

@mokありがとう。sklearnの分類子のクラスの重みを教えてください。たとえば、ロジスティック回帰はどのカテゴリに分類されますか?
ebrahimi

@ebrahimi、渡された辞書に従って重みが調整されるか、y(クラス)の値に従って計算(推定)され、データは変更されないため、アルゴリズムレベルに分類されます。
Sanjay Krishna

@SanjayKrishnaありがとうございます。最初の分類の場合、コスト重視の学習に該当しますね。また、2番目の分類法の場合、3番目のカテゴリ、つまりコストに敏感な後処理に分類されます。それは本当ですか?これに対する2番目の答え:stackoverflow.com/questions/32492550/…も役立ちます。
ebrahimi

回答:


5

私の見たところ、3つのカテゴリすべてが多くの点で一致しています。たとえば、3つすべてに前処理ステップのカテゴリがあります。

3番目の分類は、より一般的で、より多くのものを包含するため、私はほぼ同意する傾向があります。

  • データレベルのカテゴリは(アンダーサンプリング例えばオーバー/)クラスの不均衡に対処する任意の前処理ステップを含みます。
  • アルゴリズムレベルは、最初の二つの記事の第二のカテゴリを含めて考えることができます。クラスの不均衡を処理するアルゴリズムの変更(クラスの重み付けなど)がここに適用されます。
  • 最後に、2つを組み合わせるためのハイブリッドカテゴリ。

最初の2つの記事で唯一欠けているのは、後処理のステップです。正直に言うと、実際には他のステップほど頻繁には使用されません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.