勾配ブースティングは、1%のような低いイベント率のデータに適していますか?


14

Enterprise Minerを使用して、イベント率が約1%のデータセットで勾配ブーストを試行していますが、出力を生成できません。私の質問は、ディシジョンツリーベースのアプローチなので、このような低いイベントで勾配ブースティングを使用することは適切ですか?


3
不均衡なデータセットを扱っています。ブースティングは確かにそれに対処する良い方法です。詳細については、stats.stackexchange.com
questions

しかし、私にとって、ロジスティック回帰はランダムフォレストまたは勾配ブースティングよりも優れた結果をもたらしています。ブーストされたツリーを試して、モデルのパフォーマンスを向上させたいと思いました。
user2542275 2016年

ブースティングは、弱分類器に基づいています。理論的には、ランダムよりもわずかに優れている弱分類器で十分です。実際には、いくつかのデータセットには異なるアルゴリズムがより適しているため、選択する弱分類器が重要です。使用したアルゴリズム、その結果、データセットについて詳しく教えてください。
DaL 2016年

OK。データセットについて:サンプルサイズ> 4m、イベント率= 1.2%。有意なp値<0.05である予測子の数は150です。最も有意な変数を使用したロジスティック回帰により、20%の母集団で3のリフトが得られました。ニューラルネットワークは約2.8の上昇をもたらしました。勾配ブースティングでは、事前の重みを逆にして層別サンプリングを使用するまで、出力は生成されませんでした。しかし、パフォーマンスは低いです。
user2542275 2016年

データセットは非常に大きいため、少数派クラスのサンプルが十分にあるはずです。そのため、問題は相対的な不均衡が原因です。あなたはかなりの数の機能を持っていますが、あまり多くはありませんが、実際、決定木はそのようなデータセットにはあまり適していません。バランスのとれたデータセットを作成し、アルゴリズムがどれだけうまく機能するかを確認することをお勧めします。最初のコメントで説明した方法で、元のデータセットにアルゴリズムを適用できます。
DaL 2016年

回答:


7

(これに短い答えを与えるために:)

不均衡なデータセットを処理する場合は、勾配ブースティングマシンアルゴリズムを使用しても問題ありません。非常に不均衡なデータセットを扱う場合は、使用するメトリックの適合性に疑問を呈する方がはるかに適切です。私たちは、潜在的に、より正確な画像を与えるAUCPRやブライヤーのスコアリングのような測定基準、のための精度やリコール、任意のしきい値に基づいており、OPTのように、メトリックを避けるべきである-に優れたCV.SEスレッドを参照してください:なぜ精度ではありません分類モデルを評価するための最善の方法は?多くのための)。同様に、異なる誤分類コストを割り当てることにより、コストに敏感なアプローチを採用する可能性があります(例:Masnadi-Shirazi&Vasconcelos(2011)Cost-Sensitive Boostingを参照)。既知のブースティングアルゴリズムの一般的なビューと提案された変更、またはより単純なアプローチの特定の興味深いアプリケーションについては、XGBoostアルゴリズムのHiggs Bosonチャレンジレポートを確認してください。Chen&He(2015)ブーストツリーを使用したヒッグスボソンディスカバリーで詳細を説明)。

また、(GBMのような)確率的分類子を使用する場合は、返された確率の調整を積極的に検討することができます(たとえば、Zadrozny&Elkan(2002)を参照してください)分類子スコアを正確なマルチクラス確率推定値に変換するか、Kullなど2017)ベータキャリブレーション:学習者のパフォーマンスを潜在的に増強するための、バイナリ分類器のロジスティックキャリブレーションの根拠のある簡単に実装された改善。特に、不均衡なデータを扱う場合、傾向の変化を適切に捉えることは、単にデータにラベルを付けるよりも有益かもしれません。その点で、コスト重視のアプローチは最終的にはそれほど有益ではないと主張する人もいます(たとえば、Nikolaou et al。(2016)を参照)。コスト重視のブースティングアルゴリズム:本当に必要か?)。ただし、元のポイントを繰り返しますが、ブースティングアルゴリズムは本質的に不均衡なデータに対して悪いわけではなく、場合によっては非常に競争力のあるオプションを提供できます。


BrierスコアリングはAccuracyメジャーと同等であるため、まれなイベントモデルを評価する場合、Accuracyと同じ制限があります。
RobertF

ブライアースコアは精度と同等ではありません。ブライアスコアの計算には予測確率を使用し、精度計算には予測確率のハードしきい値に基づくラベルを使用していることに注意してください。
usεr11852

明確にしていただきありがとうございます-予測されたクラスに0/1ではなく推定確率を使用することはより理にかなっています。
RobertF

涼しい。私たちはそれを整理してよかったです!:)
usεr11852
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.