Enterprise Minerを使用して、イベント率が約1%のデータセットで勾配ブーストを試行していますが、出力を生成できません。私の質問は、ディシジョンツリーベースのアプローチなので、このような低いイベントで勾配ブースティングを使用することは適切ですか?
Enterprise Minerを使用して、イベント率が約1%のデータセットで勾配ブーストを試行していますが、出力を生成できません。私の質問は、ディシジョンツリーベースのアプローチなので、このような低いイベントで勾配ブースティングを使用することは適切ですか?
回答:
(これに短い答えを与えるために:)
不均衡なデータセットを処理する場合は、勾配ブースティングマシンアルゴリズムを使用しても問題ありません。非常に不均衡なデータセットを扱う場合は、使用するメトリックの適合性に疑問を呈する方がはるかに適切です。私たちは、潜在的に、より正確な画像を与えるAUCPRやブライヤーのスコアリングのような測定基準、のための精度やリコール、任意のしきい値に基づいており、OPTのように、メトリックを避けるべきである-に優れたCV.SEスレッドを参照してください:なぜ精度ではありません分類モデルを評価するための最善の方法は?多くのための)。同様に、異なる誤分類コストを割り当てることにより、コストに敏感なアプローチを採用する可能性があります(例:Masnadi-Shirazi&Vasconcelos(2011)Cost-Sensitive Boostingを参照)。既知のブースティングアルゴリズムの一般的なビューと提案された変更、またはより単純なアプローチの特定の興味深いアプリケーションについては、XGBoostアルゴリズムのHiggs Bosonチャレンジレポートを確認してください。Chen&He(2015)ブーストツリーを使用したヒッグスボソンディスカバリーで詳細を説明)。
また、(GBMのような)確率的分類子を使用する場合は、返された確率の調整を積極的に検討することができます(たとえば、Zadrozny&Elkan(2002)を参照してください)分類子スコアを正確なマルチクラス確率推定値に変換するか、Kullなど2017)ベータキャリブレーション:学習者のパフォーマンスを潜在的に増強するための、バイナリ分類器のロジスティックキャリブレーションの根拠のある簡単に実装された改善。特に、不均衡なデータを扱う場合、傾向の変化を適切に捉えることは、単にデータにラベルを付けるよりも有益かもしれません。その点で、コスト重視のアプローチは最終的にはそれほど有益ではないと主張する人もいます(たとえば、Nikolaou et al。(2016)を参照)。コスト重視のブースティングアルゴリズム:本当に必要か?)。ただし、元のポイントを繰り返しますが、ブースティングアルゴリズムは本質的に不均衡なデータに対して悪いわけではなく、場合によっては非常に競争力のあるオプションを提供できます。