GBM分類は、クラスサイズの不均衡に悩まされますか?


16

監視対象のバイナリ分類の問題を扱っています。GBMパッケージを使用して、個人を未感染/感染として分類したいと思います。私は、感染した個人の15倍も感染していない。

クラスサイズが不均衡な場合にGBMモデルが影響を受けるかどうか疑問に思っていましたか?この質問に答える参考文献は見つかりませんでした。

感染していない人に1の重みを、感染した人に15の重みを割り当てることで重みを調整しようとしましたが、結果は良くありませんでした。


1
(補足)GBMの略語とパッケージへのリンクを提供していただければ助かります。
Memming

1
勾配ブースティングモデルにどの損失関数を使用していますか?不均衡なクラスに関しては、最も一般的なクラスを優先するように思われるため、平均絶対誤差を使用したときにパフォーマンスが低下しました。私は平均二乗誤差を使用するとパフォーマンスが大幅に向上
ライアンZotti

将来の参考のために、キャレットの対数損失(クロス偏差)で使用されるデフォルトの損失関数も非常に役立つと思います。(負の対数スケールで間違った場合に大きなペナルティを課します)
リリーロング

回答:


4

私の経験では、GBMはクラスサイズの不均衡に悩まされています。少数派クラスをオーバーサンプリングしながら合成データを作成するSMOTEサンプリングを使用して、成功しました。DMwRパッケージで見つけることができます。


私は少し混乱しています。GBMは、データの不均衡を処理するためのアプローチではありませんか?これをご覧くださいanalyticsvidhya.com/blog/2017/03/…
ご覧 Lamothy

5

あなたのデータは、私が過去に仕事をしていて多くの困難に直面したセコムのデータに似ていると思います。以下は私が試したものです:

  • さまざまなサンプリング手法
  • ランダムフォレスト、ANN、GBM、アンサンブルメソッドなどのさまざまな分類子

また、AdaboostやRandom Forestのような他の製品と比較して、より良い結果が得られた1クラスSVMを試しました。あなたもそれを試すことができます。

また、1年前にこの質問をしたことがあるので、最善の方法を見つけたらここに投稿してください。そうすれば、より良い精度を得るための助けを得ることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.