不均衡クラス問題に対処するために開発されたアプローチを分類する最良の方法は何ですか?
この記事では、それらを次のように分類しています。
- 前処理:オーバーサンプリング、アンダーサンプリング、ハイブリッド法を含みます
- コスト重視の学習:直接的な方法とメタ学習が含まれ、後者はさらにしきい値とサンプリングに分割されます。
- アンサンブル手法:アンサンブル学習と組み合わせたコスト重視のアンサンブルとデータ前処理が含まれます。
第二の分類:
- データの前処理:分布の変更とデータ空間の重み付けが含まれます。1クラス学習は、分布の変化と見なされます。
- 特別な学習方法
- 予測後処理:しきい値法とコスト重視の後処理を含みます
- ハイブリッドメソッド:
3番目の記事:
- データレベルのメソッド
- アルゴリズムレベルの方法
- ハイブリッド法
最後の分類では、出力調整を独立したアプローチと見なしています。
前もって感謝します。
4
非常に短い答え:それらのすべてが最高であり、すべてが最悪です!分類とデータマイニングは、一般に状況に応じて異なります。このドメインでは、すべてのソリューションに適合する1つのサイズはありません。ところで、非常に一般的な言葉で言えば、最良のアプローチは通常、特徴抽出から評価スキームまで、さまざまなレベルでの最良の決定の組み合わせです。
—
mok
@mokありがとう。sklearnの分類子のクラスの重みを教えてください。たとえば、ロジスティック回帰はどのカテゴリに分類されますか?
—
ebrahimi
@ebrahimi、渡された辞書に従って重みが調整されるか、y(クラス)の値に従って計算(推定)され、データは変更されないため、アルゴリズムレベルに分類されます。
—
Sanjay Krishna
@SanjayKrishnaありがとうございます。最初の分類の場合、コスト重視の学習に該当しますね。また、2番目の分類法の場合、3番目のカテゴリ、つまりコストに敏感な後処理に分類されます。それは本当ですか?これに対する2番目の答え:stackoverflow.com/questions/32492550/…も役立ちます。
—
ebrahimi